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O'Reilly Media, Inc. 介 绍 


为 了 满足 读者 对 网 络 和 软件 技术 知识 的 迫切 需求 ， 世 界 著名 计算 机 图 书 出 版 
机 构 O'Reilly Media, Inc. 授权 电子 工业 出 版 社 , 翻译 出 版 一 批 该 公司 久 负 盛 
名 的 英文 经 典 技术 专著 。 


O’Reilly Media, Inc. 是 世界 上 在 Unix、X、Internet 和 其 他 开放 系统 图 书 领域 
具有 领导 地 位 的 出 版 公司 ， 同 时 也 是 在 线 出 版 的 先锋 。 


从 最 畅销 的 《The Whole Internet User’s Guide & Catalog) (被 纽约 公共 图 书馆 
评 为 20 世 纪 最 重要 的 50 本 书 之 一 ) 到 GNN (最 早 的 Internet 门户 和 商业 网 站 ) ， 
再 到 WebSite {第 一 个 桌面 PC 的 Web 服 务 器 软件 ) ，O"Reilly Media, Inc. 
一 直 处 于 Internet 发 展 的 最 前 沿 。 


许多 书店 的 反馈 表明 ,O'Reilly Media, Inc. 是 最 稳定 的 计算 机 图 书 出 版 商 - 一 
每 一 本 书 都 一 版 再 版 。 与 大 多 数 计算 机 图 书 出 版 商 相 比 ，O"Reilly Media, Inc. 
具有 深厚 的 计算 机 专业 背景 ， 这 使 得 O"Reiliy Media, Inc. 形成 了 一 个 非常 不 
同 于 其 他 出 版 商 的 出 版 方针 。O’Reilly Media, Inc. 所 有 的 编辑 人 员 以 前 都 是 
程序 员 , 或 者 是 顶尖 级 的 技术 专家 。O'Reilly Media, Inc. 还 有 许多 固定 的 作者 
群体 一 一 他 们 本 身 是 相关 领域 的 技术 专家 、 咨 询 专 家 ， 而 现在 编写 著作 ， 
O’Reilly Media, Inc. 依 靠 他 们 及 时 地 推出 图 书 。 因 为 O’ Reilly Media, Inc. A 
地 与 计算 机 业界 联系 着 ， 所 以 O'Reilly Media, Inc. 知道 市 场 上 真正 需要 什么 
图 书 。 
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计算 机 精品 学 习 资料 大 放送 
软考 官方 指定 教材 及 同步 辅导 书 下 载 | 软考 历年 真是 解析 与 答案 
软考 视频 | 考试 机 构 | 考试 时 间 安 排 
Java 一 览 无 余 : Java 视频 教程 | Java SE | Java EE 
Net 技术 精品 资料 下 载 汇 总 : ASP.NET 篇 
Net 技术 精品 资料 下 载 汇 总 : C# 语 言 
.Net 技术 精品 资料 下 载 汇 总 : VB.NET 篇 
撼 世 出 击 : C/C++ 编程 语言 学 习 资料 尽 收 眼底 电子 书 + 视 频 教 程 
Visual C++(VC/MFC) 学 习 电 子 书 及 开发 工具 下 载 
Perl/CGI 脚本 语言 编程 学 习 资 源 下 载 地 址 大 全 
Python 语言 编程 学 习 资料 (电子 书 + 视 频 教程 ) 下 载 汇总 
最 新 最 全 Ruby、Ruby on Rails 精品 电子 书 等 学 习 资 料 下 载 
数据 库 精 品 学 习 资源 汇总 ，MySQL 篇 | SQL Server 篇 | Oracle 篇 
最 强 HTML/xHTML、CSS 精品 学 习 资料 下 载 汇 总 
最 新 JavaScript, Ajax 典藏 级 学 习 资 料 下 载 分 类 汇总 
网 络 最 强 PHP 开发 工具 + 电子 书 + 视 频 教程 等 资料 下 载 汇 总 
UML 学 习 电子 资 下 载 汇总 软件 设计 与 开发 人 员 必 备 
经 典 LinuxCBT 视频 教程 系列 Linux 快速 学 习 视 频 教程 一 帖 通 
天 罗 地 网 :精品 Linux 学 习 资 料 大 收集 (电子 书 + 视 频 教 程 ) Linux 参考 资源 大 系 
Linux 系统 管理 员 必 备 参考 资料 下 载 汇总 
Linux shell、 内 核 及 系统 编程 精品 资料 下 载 汇 总 
UNIX 操作 系统 精品 学 习 资 料 < 电子 书 + 视 频 > 分 类 总 汇 
FreeBSD/OpenBSD/NetBSD 精品 学 习 资源 索引 含 书籍 + 视频 
Solaris/ OpenSolaris 电子 书 、 视 频 等 精华 资料 下 载 索引 
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一 夫 当 关 


IT 产业 新 技术 日 新 月 异 ， 令 人 目不暇接 ， 然 而 在 这 其 中 ， 真 正 能 称 得 上 伟大 的 东西 却 室 室 
无 几 。1998 年 ,被 誉 为 "软件 世界 的 爱迪生 ”, 发 明了 BSD、TCP/IP、csh、 vi 和 NFS 的 SUN 
首席 科学 家 Bill Joy 曾经 不 无 调侃 地 说 ,在 计算 机 体系 结构 领域 里 , 缓存 是 唯一 能 称 得 上 伟 
大 的 思想 ， 其 他 的 一 切 发 明和 技术 不 过 是 在 不 同 场景 下 应 用 这 一 思想 而 已 。 在 计算 机 软件 
领域 里 ， 情 形 也 大 体 相似 。 如 果 罗 列 这 个 领域 中 的 伟大 发 明 ， 我 相信 绝 不 会 超过 二 十 项 。 
在 这 个 名 单 当 中 ， 当 然 应 该 包括 分 组 交换 网 络 、Web、Lisp、 哈 希 算法 、UNIX、 编 译 技术 、 
关系 模型 、 面 向 对 象 、XML 这 些 大 名 思 电 的 家 伙 ， 而 正则 表达 式 也 绝对 不 应 该 被 漏 掉 。 正 
则 表达 式 具 有 伟大 技术 发 明 的 一 切 特点 ， 它 简单 、 优 美 、 功 能 强大 、 妙 用 无 穷 。 对 于 很 多 
实际 工作 来 讲 , 正则 表达 式 简直 是 灵丹妙药 ,能够 成 百倍 地 提高 开发 效率 和 程序 质量 .CSDN 
的 创始 人 藉 涛 先生 在 早年 开发 专业 软件 产品 时 ， 就 曾经 体验 过 这 一 工具 的 巨大 威力 ， 并 且 
ARRA. 而 我 的 一 位 从 事 网 络 编辑 工作 的 朋友 , 最 近 也 领略 了 正则 表达 式 的 威力 一 一 
他 用 Perl 开发 了 一 个 不 足 20 行 的 小 程序 ， 使 用 正则 表达 式 将 一 项 原本 每 天 耗 用 10 人 时 的 
工作 在 一 分 钟 之 内 自动 完成 。 而 正则 表达 式 在 生物 信息 学 和 人 类 基因 图 谱 的 研究 中 所 发 挥 
的 关键 作用 ， 更 是 被 传 为 佳话 。 无 论 对 于 软件 开发 者 ， 还 是 从 事 其 他 知识 工作 的 专业 人 士 ， 
正则 表达 式 都 是 最 有 利 的 工具 之 一 。 


所 谓 正 则 表达 式 ， 就 是 一 种 描述 字符 串 结构 模式 的 形式 化 表达 方法 。 在 发 展 的 初期 ， 这 套 
方法 仅 限于 撕 述 正则 文本 ， 故 此 得 名 “正则 表达 式 (regular expression) "。 随 着 正则 表达 式 
研究 的 深入 和 发 展 ， 特 别 是 Perl 语言 的 实践 和 探索 ， 正 则 表达 式 的 能 力 已 经 大 大 突破 了 传 
统 的 、 数 学 上 的 限制 ， 成 为 威力 巨大 的 实用 工具 ， 在 几乎 所 有 主流 语言 中 获得 支持 。 为 什 
么 正则 表达 式 具 有 如 此 巨大 的 魅力 ? 一 方面 ， 因 为 正则 表达 式 处 理 的 对 象 是 字符 串 ， 或 者 
抽象 地 说 ， 是 一 个 对 象 序列 ， 而 这 恰恰 是 当今 计算 机 体系 的 本 质数 据 结构 ， 我 们 围绕 计算 
机 所 做 的 大 多 数 工作 ， 都 归结 为 在 这 个 序列 上 的 操作 ， 因 此 ， 正 则 表达 式 用 途 广阔 。 另 一 
方面 ， 与 大 多 数 其 他 技术 不 同 ， 正 则 表达 式 具有 超 强 的 结构 描述 能 力 ， 而 在 计算 机 中 ， 正 
是 不 同 的 结构 把 无 差别 的 字 节 组 织 成 千差万别 的 软件 对 象 ， 再 组 合成 为 无 所 不 能 的 软件 系 
统 ， 因 此 ， 描 述 了 结构 ， 就 等 于 描述 了 系统 。 在 这 方面 ， 正 则 表达 式 的 地 位 是 独特 的 。 正 
因为 这 两 点 ， 在 现在 的 软件 开发 和 日 常数 据 处 理工 作 中 ， 正 则 表达 式 已 经 成 为 必 不 可 少 的 
工具 。 如 果 一 个 开发 工具 不 支持 正则 表达 式 ， 那 它 就 会 被 视 为 玩具 语言 ， 如 果 -- 个 编辑 器 
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不 支持 正则 表达 式 ， 那 它 就 会 被 成 为 阳春 应 用 。 连 人 们 原本 并 不 指望 应 用 正则 表达 式 的 商 
用 数据 库 ， 各 家 厂商 也 竞相 以 支持 正则 表达 式 为 卖点 。 正 则 表达 式 的 声势 之 隆 ， 是 毋庸 置 
疑 的 。 


非常 奇怪 的 是 ， 这 样 一 个 了 不 起 的 技术 ， 在 我 国 却 并 没有 得 到 充分 推广 。 以 其 价值 而 言 ， 
正则 表达 式 不 但 值得 每 一 个 专业 程序 员 人 掌握 ， 而 且 值 得 所 有 知识 工作 者 去 了 解 。 然 而 现实 
情况 是 ， 不 但 一 般 知 识 工作 者 大 多 闻所未闻 ， 很 多 专业 程序 员 也 视 之 为 展 途 。 为 什么 会 出 
现 这 种 情况 呢 ? 原因 有 二 。 其 一 ， 正 则 表达 式 产生 和 发 展 在 UNIX 文化 体系 之 中 ， 而 我 国 
软件 开发 社 群 的 知识 结构 长 期 受到 微软 的 决定 ，UNIX 文化 影响 甚 微 。 在 2002 年 推出 .NET 
平台 之 前 ， 微 软 在 其 各 项 主流 平台 、 产 品 与 开发 工具 当中 ， 均 未 对 正则 表达 式 给 予 足 够 的 
重视 ， 相 应 地 ， 我 们 的 开发 者 们 对 正则 表达 式 也 就 知之 不 多 。 第 二 ， 也 是 更 重要 的 原因 ， 
就 是 正则 表达 式 并 不 是 那么 好 掌握 的 ， 在 通 向 驾驭 正则 表达 式 强 大 力量 的 道路 上 ， 还 是 有 
那么 几 只 拦路 虎 的 ， 而 要 打 虎 过 岗 ， 不 但 要 花 点 功夫 ， 还 要 有 正确 的 方法 。 


学 习 正 则 表达 式 ， 入 门 不 难 ， 看 一 些 例子 ， 试 着 模仿 模仿 ， 就 可 以 粗 通 ， 并 且 在 工作 中 解 
决 不 少 问题 。 然 而 大 部 分 学 习 者 也 就 就 此 止步 ， 他 们 对 自己 说 :“ 正 则 表达 式 不 过 如 此 , 我 
就 学 到 这 里 了 ， 以 后 现 用 现 学 就 行 了 。 ”他 们 以 为 自己 可 以 像 学 习 其 他 技术 一 样 ， 在 实践 中 
逐渐 提高 正则 表达 式 的 应 用 水 平 。 然 而 事实 上 ， 正 则 表达 式 并 不 是 每 天 都 会 用 到 ， 而 其 帘 
码 般 的 形象 ， 随 着 时 间 的 推移 很 容易 被 忘记 ， 所 以 经 常 发 生 的 情况 是 ， 开 发 者 对 于 正则 表 
达 式 的 记忆 迅速 消 褪 ， 每 次 遇 到 新 的 问题 ， 都 要 查 资料 ， 重 新 唤 回 记忆 ， 对 于 稍微 复杂 一 
点 的 问题 ， 只 好 求助 于 现成 的 解决 方案 。 反 反复 复 ， 长 期 如 此 ， 不 但 应 用 水 平 难以 明显 提 
升 ， 而 且 会 对 这 项 技术 逐渐 产生 一 定 的 恐惧 感 和 厌烦 情绪 。 这 还 只 是 应 用 阶段 ， 正 则 表达 
式 应 用 的 高 级 阶段 ， 要 求 开发 者 还 必须 充分 理解 正则 表达 式 的 能 力 范围 ， 能 够 将 一 些 正则 
表达 式 技术 组 合 应 用 ， 达 成 超 平一 般 想 像 的 效果 。 为 了 高 效 、 正 确 地 解决 实际 问题 ， 有 的 
时 候 其 至 要 求 深 入 理解 正则 表达 式 的 原理 ， 甚 至 对 于 如 何 实现 正则 表达 式 引擎 都 要 有 所 了 
解 ， 在 此 基础 上 ， 规避 陷阱 ， 优 化 设计 ， 提 高 程序 执行 效率 。 要 达到 这 样 的 程度 ， 不 经 过 
系统 的 学 习 是 不 可 能 的 。 


系统 学 习 正 则 表达 式 并 不 是 一 件 容 易 的 事情 ,仅仅 通过 阅读 一 些 “HOW TO 的 快餐 式 文章 是 
不 行 的 ， 必 须 有 更 完整 、 更 系统 的 资料 指导 学 习 。 如 果 你 在 国外 技术 社区 里 询问 如 何 才 能 
系统 学 习 正 则 表达 式 ， 几 乎 所 有 的 领域 专家 都 会 向 你 推荐 一 本 书 一 一 Jeffrey Fried] 的 《精通 
正则 表达 式 》， 也 就 是 本 书 。 


这 本 《精通 正则 表达 式 》 是 系统 学 习 正 则 表达 式 的 唯一 最 权威 著作 。 可 以 说 ， 在 今天 ， 如 
果 想 理解 和 人 掌握 正则 表达 式 ， 想 要 建立 关于 这 一 技术 的 完整 概念 体系 ， 想 充分 发 挥 其 巨大 
能 量 ， 这 本 书 几乎 是 无 法 绕 开 的 必 经 之 路 。 甚 至 可 以 说 ， 如 果 你 没有 读 过 这 本 书 ， 那 么 你 
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对 于 正则 表达 式 的 理解 和 应 用 能 力 一 定 达 不 到 升 堂 入 室 的 程度 。 本 书 第 1 版 出 版 于 十 年 之 
前 ， 自 那 时 起 它 就 成 为 正则 表达 式 领域 最 全 面 、 最 受 欢 迎 的 代表 著作 ， 数 以 万 计 的 读者 通 
过 这 本 书 掌握 了 正则 表达 式 ， 成 为 行家 里 手 。 在 任何 时 候 ， 任 何 地 方 ， 只 要 提 和 到 正则 表达 
式 著作 ， 人 们 都 会 提 到 这 本 书 。 这 本 书 的 质量 之 高 ， 声 誉 之 盛 ， 使 得 几乎 没有 人 企图 挑战 
它 的 地 位 , 从 而 在 正则 表达 式 图 书 领域 形成 独特 的 "一夫 当 关 ”的 局 面 , 称 其 为 正则 表达 式 圣 
经 ， 绝 对 当之无愧 。 


为 什么 这 本 书 能 够 表现 得 如 此 出 色 ? 我 认为 这 其 中 有 三 个 原因 。 其 一 ， 作 者 本 人 具有 多 年 
程序 开发 经 验 ， 理 论 基 础 深厚 ， 实 战 经 验 丰 富 ， 对 正则 表达 式 这 个 主题 透彻 理解 ， 因 此 在 
技术 上 得 心 应 手 ， 底 气 十 足 ， 对 于 技术 上 的 难点 不 回避 、 不 含糊 。 作 者 高 超 的 技术 水 平 是 
本 书 质量 的 强大 保证 。 其 二 ， 作 者 思路 对 头 ， 素 材 组 织 得 当 ， 用 例 丰 富 。 正 则 表达 式 根植 
于 数学 理论 ， 却 又 能 在 日 常 俗 事 上 发 挥 巨大 的 效用 。 写 这 种 类 型 的 技术 ， 思 路 稍微 -偏差 ， 
就 可 能 走 焉 路 ， 不 是 太 理 论 ， 就 是 太 琐碎 ， 不 是 太 枯 燥 ， 就 是 太 浅 薄 ， 实 在 很 难 把 握 。 作 
者 清楚 地 认识 到 ， 这 本 书 的 读者 不 是 计算 机 科学 家 ， 但 也 不 是 满足 于 “ 知 其 然而 不 知 其 所 以 
然 " 的 快餐 式 代码 小 子 ， 而 是 具有 一 定理 论 素 养 ， 却 又 始终 以 实践 为 本 的 专业 开发 者 。 他 们 
需要 的 是 面向 实践 的 理论 和 思想 ， 是 实 实 在 在 的 实战 能 力 ， 只 有 满足 这 种 需要 ， 才 能 够 真 
正 打动 读者 。 通 读 此 书 ， 可 以 说 作者 对 这 一 路 线 的 把 握 十 分 成 功 ， 保 证 了 内 容 大 方向 的 正 
确 。 其 三 ， 这 本 书 的 写法 独具匠心 ， 堪 称 典范 。 技 术 图 书 的 主要 使 命 是 传播 专业 知识 。 而 
专业 知识 分 为 框架 性 知识 和 具体 知识 。 框 架 性 知识 需要 通过 系统 的 阅读 和 学 习 掌握 ， 而 大 
量 的 具体 知识 ， 则 主要 通过 日 常 工作 的 积累 以 及 随 用 随 查 的 的 学 习 来 逐渐 填充 起 来 。 本 书 
前 六 章 ， 以 顺序 式 记 述 的 方式 ， 将 正则 表达 式 的 系统 知识 娓 娓 道 来 ， 读 者 像 看 故事 书 似 的 
就 建立 起 整个 正则 表达 式 的 基本 知识 体系 。 而 后 面 的 内 容 ， 则 是 方便 实际 开发 中 频 发 查阅 
之 用 ， 包 括 各 大 主流 语言 对 正则 表达 式 的 支持 细节 ， 包 含有 大 量 案例 。 这 样 的 写法 ， 完 全 
符合 一 般 和 人 学 习 的 特点 ， 因 此 书 读 起 来 非常 恢 意 ， 非 党 有 趣 ， 用 的 时 候 查 起 来 又 非常 方便 。 
这 样 的 著述 风格 ， 实 在 值得 学 习 。 


读者 可 以 在 没有 任何 正则 表达 式 的 基础 上 开始 阅读 此 书 ， 只 要 勤 动脑 ， 加 强 理解 ， 适 当 动 
手 练习 ， 将 能 够 在 不 长 的 时 间 里 掌握 正则 表达 式 的 思想 和 技术 精华 ， 这 一 点 已 经 被 很 多 人 
验证 过 ， 我 本 人 也 是 这 本 书 的 受益 者 之 一 。 正 因为 这 本 书 独一无二 的 地 位 和 高 度 的 可 读 性 ， 
也 因为 正则 表达 式 作为 一 项 了 不 起 的 技术 发 明 所 具有 的 巨大 威力 ， 我 非常 希望 更 多 的 读者 
能 够 通过 认真 地 学 习 本 书 而 掌握 这 一 强大 技术 ， 并 享受 这 项 技术 带 来 的 快乐 。 


LE 
2007 年 7 月 于 北京 
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译 者 序 


《精通 正则 表达 式 (第 3 版 )》( 即 Mastering Regular Expression, 3rd Edition) 是 - -本 好 书 。 


我 还 记得 ， 自 己 刚 开始 工作 时 ， 就 遇 到 了 关于 正则 表达 式 的 问题 Ota kL): 若 从 
文本 中 抽取 E-mail 地 址 ， 还 可 以 用 字符 串 来 查找 ( 先 定位 到 @ ， 然 后 向 两 端 查找 ) ， 若 要 抽 
取 URL， 简 单 的 文本 查找 就 无 能 为 力 了 。 正 当 我 一 筹 莫 展 之 时 ， 项 目 经 理 说 :“ 可 以 用 正则 
表达 式 ， 去 网 上 找 找 资料 吧 。” 抱 着 这 根 救 命 稻 草 ， 我 搜索 了 之 前 只 是 听 说 过 名 字 的 正则 表 
达 式 的 资料 ， 并 打印 了 java.util.regex (开发 用 的 Java) 的 文档 来 看 。 摸 索 了 半天 ， 我 
的 感觉 就 是 ， 这 玩意 儿 ， 真 神奇 ， 真 复杂 ， 真 好 用 。 


此 后 ， 用 到 正则 表达 式 的 地 方 越 来 越 多 ， 我 也 越 来 越 感觉 到 它 的 重要 ， 然 而 使 用 起 来 却 总 
感觉 捉襟见肘 。 当 时 是 夏天 ， 北 京 非常 热 ， 我 决定 下 班 之 后 不 再 着 急 赶 车 回 家 ， 而 是 在 公 
司 安心 看 看 技术 文档 ， 于 是 邂逅 了 这 本 Mastering Regular Expression。 该 书 原文 是 相当 通畅 
易 懂 的 ， 看 完全 书 大 概 花 了 我 一 周 的 业余 时 间 ， 之 后 便 如 拨 云 见 日 ， 感 觉 峪 然 开朗 原 
来 正则 表达 式 可 以 这 样 用 ， 真 是 奇妙 ， 令 人 拍案 叫绝 。 


此 后 我 运用 正则 表达 式 便 不 用 再 看 什么 资料 了 ， 充 其 量 就 是 查 查 语言 的 具体 文档 ， 表 达 式 
的 基本 模型 和 思路 ， 完 全 是 在 阅读 本 书 时 确立 的 。 也 正 是 因为 细心 阅读 过 本 书 ， 所 以 有 时 
我 能 以 正则 表达 式 解决 某 些 复杂 的 问题 。 我 的 朋友 郝 培 强 (Tinyfool， 昵 称 Tiny) 曾 问 过 我 
这 样 一 个 正则 表达 式 的 问题 : 在 Apache 服务 器 的 Rewrite 规则 中 ， 怎 样 以 一 个 正则 表达 式 
叱 配 “ 除 两 个 特定 子 域名 之 外 的 所 有 其 他 子 域名 "， 其 他 人 的 办 法 都 无 法 满足 要 求 : 要 么 只 
能 匹配 这 两 个 特定 的 子 域名 ， 要 么 必须 依赖 程序 分 支 才能 进行 判断 。 其 实 这 个 问题 ， 是 可 
以 用 一 个 正则 表达 式 匹 配 的 。 事 后 ，Tiny 说 ， 看 来 ， 会 用 正则 的 人 很 多 ， 但 真正 懂得 正则 
的 人 很 少 。 现实 情况 也 确实 如 此 ， 就 我 所 见 ， 不 少 同仁 对 正则 表达 式 的 运用 ， 大 多 是 从 网 
上 找 些 现成 的 表达 式 ， 人 套用 在 自己 的 程序 中 ， 但 对 到 底 该 用 几 个 反 斜 线 转 义 ， 转 义 是 在 字 
符 串 级 别 还 是 表达 式 级 别 进行 的 ， 捕 获 型 括号 是 否 必须 ， 表 达 式 的 效率 如 何 ， 等 等 问题 ， 
往往 都 是 一 知 半 解 ， 甚 至 毫 无 概念 ， 在 Tiny 的 问题 面前 ， 更 是 束手无策 ， 一 筹 莫 展 。 
就 我 个 人 来 说 ， 我 所 掌握 的 正则 表达 式 的 知识 ， 绝 大 多 数 来 自 本 书 。 正 是 依靠 这 些 知 识 ， 
我 几乎 能 以 正则 表达 式 进行 自己 期 望 的 任何 文本 处 理 ， 所 以 我 相信 ， 能 够 耐心 读 完 这 本 书 
的 读者 ， 一 定 能 深入 正则 表达 式 的 世界 ， 若 再 加 以 练习 和 思考 ， 就 能 熟练 地 依靠 它 解 决 各 
种 复杂 的 问题 (其 中 就 包括 类 似 Tiny 的 问题 ) 了 。 
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x YO 
EEF, MEIE (Virushuo) 的 介绍 ， 我 参加 了 博文 视点 的 试 译 活动 ， 很 幸运 地 获得 了 翻译 
本 书 的 机 会 。 有 机 会 与 大 家 分 享 这 样 一 本 好 书 ， 我 深 感 荣幸 。500 多 页 的 书 ， 拖 拖拉 拉 ， 也 
花 了 半年 多 的 时 间 。 虽 然 之 前 读 过 原著 ， 积 累 了 一 些 运用 正则 表达 式 的 经 验 ， 也 翻译 过 数 
十 万 字 的 资料 ， 但 要 尽 可 能 准确 、 贴 切 地 传达 原文 的 阅读 感觉 ， 我 仍 感 颇 费 心力 。 部 分 译 
文 在 确认 理解 原文 的 基础 上 ， 要 以 符合 中 文 习惯 的 方式 加 以 表述 仍然 颇 费 周折 (例如 ， 直 
译 的 “正则 表达 式 确实 容许 出 现 这 种 错误 ”， 原 文 的 意思 是 “这 样 的 错误 超出 了 正则 表达 式 
的 能 力 ”"， 最 后 修改 为 “出 现 这 样 的 错误 ， 不 能 人 怪 正则 表达 式 ” 或 “这 样 的 问题 ， 错 不 在 正 
则 表达 式 ” )。 另 有 部 分 词语 ， 虽 可 译 为 中 文 ， 但 为 保证 阅读 的 流畅 ， 没 有 翻译 (例如 ,“ 它 
包含 特殊 和 一 般 两 个 部 分 ,特殊 部 分 之 所 以 是 特殊 的 ,原因 在 于 …… ” ,此 处 special 和 normal 
是 专 指 ， 故 翻译 为 “ 它 包含 special 和 normal 两 个 部 分 ，special 部 分 之 所 以 得 名 ， 原 因 在 
于 ……")， 这 样 的 处 理 ， 相 信和 不 会 影响 读者 的 理解 。 


在 本 书 翻译 结束 之 际 ， 我 首先 要 感谢 替 炬 ， 他 的 引荐 让 我 获得 了 翻译 这 本 书 的 机 会 ， 还 要 
感谢 博文 视点 的 周 筠 老师 ， 她 谨慎 严格 的 工作 态度 ， 时 刻 提醒 我 不 能 马虎 对 待 这 本 经 典 之 
作 ， 还 有 本 书 的 责编 晓 菲 ， 她 为 本 书 的 编辑 和 校对 做 了 大 量 细致 而 深入 的 工作 。 


另外 我 还 要 感谢 东北 师范 大 学 文学 院 的 主 确 老师 ， 在 我 求学 期 间 ， 王 老师 给 予 我 诸多 指点 ， 
离 校 时 间 愈 长 ， 愈 是 怀念 和 庆幸 那 段 经 历 ， 可 以 说 ， 没 有 与 他 的 相识 ， 便 没有 我 的 今天 。 


翻译 过 程 中 ， 我 虽 力 求 把 担 原文 ， 语 言 通 物 ， 但 翻译 中 的 错误 或 许 是 在 所 难免 的 ， 对 此 本 
人 愿 负 全 部 责任 。 希 望 广大 读者 发 现 错误 能 及 时 与 我 和 出 版 社 联系 以 便 重印 时 修正 ， 或 是 
以 勘误 的 形式 公布 出 来 以 惠及 其 他 读者 。 如 果 读 者 有 任何 想法 或 建议 ， 欢 迎 给 我 写 信 ， 我 
的 邮件 地 址 是 : yusheng.regex@gmail.com, 


如 今 正 则 表达 式 已 经 成 为 几乎 所 有 主流 编程 语言 中 的 必 备 元 素 : Java, Perl, Python, PHP, 
Ruby…… 莫 不 如 此 ， 甚 至 功能 稍 强大 一 些 的 文本 编辑 工具 ， 都 支持 正则 表达 式 。 尤 其 是 在 
Web 兴起 之 后 ， 开 发 任务 中 的 一 大 部 分 甚至 全 部 ， 都 是 对 字符 串 的 处 理 。 相 比 简单 的 字符 
串 比 较 、 查 找 、 替 换 ， 正 则 表达 式 提 供 了 强大 得 多 的 处 理 能 力 (最 重要 的 是 ， 它 能 够 处 理 
“符合 某 种 抽象 模式 ”的 字符 串 ， 而 不 是 固化 的 、 具 体 的 字符 串 )。 熟 练 运用 它们 ， 能 够 节 
省 大 量 的 开发 时 间 ， 甚 至 解决 一 些 之 前 看 来 是 mission impossible 的 问题 。 


本 书 是 讲解 正则 表达 式 的 经 典 之 作 。 其 他 介绍 正则 表达 式 的 资料 ， 往 往 局 限于 具体 的 语法 
和 函数 的 讲解 ， 于 语法 细节 处 着 墨 太 多 ， 忽 略 了 正则 表达 式 本 身 。 这 样 ， 读 者 虽然 对 关于 
正则 表达 式 的 具体 规定 有 所 了 解 ， 但 终究 是 只 见 树木 不 见 森 林 ， 遇 上 复杂 的 情况 ， 往 往 束 
手 无 策 ， 举 步 维 艰 。 而 本 书 自 第 1 版 开始 便 着 力 于 教会 读者 “以 正则 表达 式 来 思 郑 (think 
regular expression)”， 回 读者 讲授 正则 表达 式 的 精 人 (正则 表达 式 的 各 种 流派 、 匹 配 原理 、 
优化 原则 ,等 等 ), 而 不 拘泥 于 具体 的 规定 和 形式 。 了 解 这 些 精 任 ， 再 辅 以 具体 操作 的 文档 ， 
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译 者 序 T. xi 
读者 便 可 做 到 “胸中 有 丘 宏 ， 下 笔 如 有 神 ”， 即 便 问 题 无 法 以 正则 表达 式 来 解决 ， 读 者 也 能 
很 快 作出 判断 ， 而 不 必 寞 目 堂 试 ， 徒 费 工 夫 。 


不 了 解 正 则 表达 式 的 读者 ， 可 循序 渐进 ， 依 次 阅读 各 章 ， 即 便 之 前 完全 未 接触 过 正则 表达 
式 ， 读 过 前 两 章 ， 也 能 在 心中 描绘 出 概略 的 图 谱 。 第 3、4、5、6 章 是 本 书 的 重点 ， 也 是 核 
心 价值 所 在 ， 它 们 分 别 介绍 了 正则 表达 式 的 特性 和 流派 、 匹 配 原理 、 实 用 诀窍 以 及 调 校 措 
施 。 这 样 的 知识 与 具体 语言 无 关 ， 适 用 于 几乎 所 有 的 语言 和 工具 (当然 ， 如 果 使 用 DFA 引 
更， 第 6 章 的 价值 要 打 些 折扣 )， 所 谓 “大 象 无 形 "， 便 是 如 此 。 读 者 如 能 仔细 研读 ， 悉 心 
揣摩 , 之 后 解决 各 种 问题 时 , ee Rot BEBE. 7, 8. 9, 10 章 分 别 讲 解 了 Perl, Java, NET, 
PHP 中 正则 表达 式 的 用 法 ， 看 来 类 似 参考 手册 ， 其 实 是 对 前 面 4 章 知 识 的 包装 ， 将 抽象 的 
知识 辅 以 具体 的 语言 规定 ， 以 具体 的 形式 表现 出 来 。 所 以 ， 心 急 的 读者 ， 在 阅读 这 些 章 节 
之 前 ， 最 好 先 通读 第 3、4、5、6 章 ， 以 便 更 好 地 理解 其 中 的 逻辑 和 思路 。 


相信 仔细 阅读 完 本 书 的 读者 ， 定 会 有 登 堂 入室 的 感觉 。 不 但 能 见识 到 正则 表达 式 各 种 令 人 
眼花 综 乱 的 特性 ， 更 能 够 深入 了 解 表 达 式 、 匹 配 、 引 擎 背后 的 原理 ， 从 而 写 出 复杂 、 神 奇 
而 又 高 效 的 正则 表达 式 ， 快 速 地 解决 工作 中 的 各 种 问题 。 


eR 
2007 年 6 月 于 北京 
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前 


Preface 


了 路 


本 书 关注 的 是 一 种 强大 的 工具 一 --“ 正 则 表达 式 ”"。 它 将 教会 读者 如 何 使 用 正则 表达 式 解决 
各 种 问题 ， 以 及 如 何 充分 使 用 支持 正则 表达 式 的 工具 和 语言 。 许 多 关于 正则 表达 式 的 文档 
都 没有 介绍 这 种 工具 的 能 力 ， 而 本 书 的 目的 正 是 让 读者 “精通 ”正则 表达 式 。 


许多 种 工具 都 支持 正则 表达 式 (文本 编辑 器 、 文 字 处 理 软 件 、 系 统 工 具 、 数 据 库 引 擎 ， 等 
等 )， 不 过 ， 要 想 充 分 挖 据 正 则 表达 式 的 能 力 ， 还 是 应 当 将 它 作 为 编程 语言 的 一 部 分 。 例 如 
Java, JScript, Visual Basic, VBScript, JavaScript. ECMAScript, C, C++, C#, elisp, Perl, 
Python, Tcl, Ruby, PHP, sed 和 awk。 事 实 上， 在 一 些 用 上 述 语言 编写 的 程序 中 ， 正 则 表 
达 式 扮演 了 极其 重要 的 角色 。 


正则 表达 式 能 够 得 到 众多 语言 和 工具 的 支持 是 有 原因 的 : 它们 极其 有 用 。 从 较 低 的 屋面 上 
来 说 ， 正 则 表达 式 描 述 的 是 一 串 文 本 (a chunk of text) 的 特征 。 读 者 可 以 用 它 来 验证 用 户 
输入 的 数据 ， 或 者 也 可 以 用 它 来 检索 大 量 的 文本 。 从 较 高 的 层面 上 来 说 ， 正 则 表达 式 容许 
用 户 掌控 他 们 自己 的 数据 一 一 控制 这 些 数据 ， 让 它们 为 自己 服务 。 掌 担 正 则 表达 式 ， 就 是 
掌握 自己 的 数据 。 


本 书 的 价值 
The Need for This Book 


本 书 的 第 1 RSF 1996 年 , 以 满足 当时 存在 的 需求 。 那 时 还 没有 关于 正则 表达 式 的 详尽 文 
档 ， 所 以 它 的 大 部 分 能 力 还 没有 被 发 掘 出 来 。 正 则 表达 式 文档 倒是 存在 ， 但 它们 都 立足 于 
“低层 次 视角 ”。 我 认为 ， 那 种 情况 就 好 像 是 教 一 些 人 英文 字母 ， 然 后 就 指望 他 们 会 说 话 。 
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II 前 言 


第 2 版 与 第 1 版 间隔 了 五 年 半 的 时 间 ， 这 期 间 ， 互 联网 迅速 流行 起 来 ， 正 则 表达 式 的 形式 
也 有 了 极 大 的 扩张 ， 这 或 许 并 不 是 巧 含 。 几 乎 所 有 工具 软件 和 程序 语言 支持 的 正则 表达 式 
也 变 得 更 加 强大 和 易于 使 用 。Perl、Python、Tcl、Java 和 Visual Basic 都 提供 了 新 的 正则 支 
持 。 新 出 现 的 支持 内 建 正则 表达 式 的 语言 ， 例 如 PHP、Ruby、C#， 也 已 经 发 展 壮 大 ， 流 行 
开 来 。 在 这 段 时 间 里 ， 本 书 的 核心 一 一 如 何 真正 理解 正则 表达 式 ， 以 及 如 何 使 用 正则 表达 
式 一 一 仍然 保持 着 它 的 重要 性 和 参考 价值 。 


不 过 ,第 1 版 已 经 逐渐 脱离 了 时 代 ， 必 须 加 以 修订 ， 才 能 适应 新 的 语言 和 特性 ， 也 才能 对 
应 正则 表达 式 在 互联 网 世界 中 越 来 越 重要 的 地 位 。 第 2 版 出 版 于 2002 年 , 这 一 年 的 里 程 碑 
是 java.util.regex, Microsoft .NET Framework 和 Perl 5.8 的 诞生 。 第 2 KS PRE Tux 
些 内 容 。 关于 第 2 版 , 我 唯一 的 遗憾 就 是 , 它 没有 提 及 PHP。 自 第 2 版 诞生 以 来 的 4 年 里 ， 
PHP 的 重要 性 一 直 在 增加 ， 所 以 ， 弥 补 这 一 缺憾 是 非常 迫切 的 。 


第 3 版 在 前 面 的 章节 中 增加 了 PHP 的 相关 内 容 ， 并 专门 为 理解 和 应 用 PHP 的 正则 表达 式 
增加 了 一 章 全 新 的 内 容 。 另 外 ， 该 版 对 Java 的 章节 也 进行 了 修订 ， 做 了 可 观 的 扩充 ， 反 映 
了 Javai.5 和 Javal.6 的 新 特性 。 


目标 读者 

Intended Audience 

任何 有 机 会 使 用 正则 表达 式 的 人 ， 都 会 对 本 书 感 兴趣 。 如 果 您 还 不 了 解 正 则 表达 式 能 提供 
的 强大 功能 ， 这 本 书展 示 的 全 新 世界 将 会 让 您 受益 匪 浅 。 即 使 您 认为 自己 已 经 是 黎 担 正则 
表达 式 的 高 手 了 ， 这 本 书 也 能 够 深化 您 的 认识 。 第 1 版 面世 后 ， 我 时 常会 收 到 读者 的 电子 
邮件 反映 说 “ 读 这 本 书 之 前 ， 我 以 为 自己 了 解 正则 表达 式 ， 但 现在 我 才 真 正 了 解 ”。 


以 与 文本 打交道 为 工作 (如 Web FE) 的 程序 员 将 会 发 现 ， 这 本 书 绝对 称 得 上 是 座 金 矿 ， 
因为 其 中 冀 藏 了 各 种 细节 、 上 暗示、 讲解 ， 以 及 能 够 立刻 投入 到 实用 中 的 知识 。 在 其 他 任何 
地 方 都 难以 找到 这 样 丰富 的 细节 。 


正则 表达 式 是 一 种 思想 一 一 各 种 工具 以 各 种 方式 (数目 远 远 超过 本 书 的 列举 ) 来 实现 它 。 
如 果 读 者 理解 了 正则 表达 式 的 基本 思想 ， 掌 担 某 种 特殊 的 实现 就 是 易如反掌 的 事情 。 本 书 
关注 的 就 是 这 种 思想 ， 所 以 其 中 的 许多 知识 并 不 受 例子 中 所 用 的 工具 软件 和 语言 的 束缚 。 
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如 何 阅读 


Hew to Read This Book 


这 本 书 既 是 教程 ， 又 是 参考 手册 ， 还 可 以 当 故 事 看 ， 这 取决 于 读者 的 阅读 方式 。 熟 悉 正 则 
表达 式 的 读者 可 能 会 觉得 ， 这 本 书 马 上 就 能 当 作 一 本 详细 的 参考 手册 ， 读 者 可 以 直接 跳 到 
自己 需要 的 章节 。 不 过 ， 我 并 不 鼓励 这 样 做 。 

要 想 充分 利用 这 本 书 ， 可 以 把 前 6 章 作为 故事 来 读 。 我 发 现 ， 某 些 思维 习惯 和 思维 方式 的 
确 有 助 于 完整 的 理解 ， 不 过 最 好 还 是 从 这 几 章 的 讲解 中 学 习 它们 ， 而 不 是 仅仅 记 住 其 中 的 
几 张 列表 。 

故事 是 这 样 的， 前 6 章 是 后 面 4 章 一 一 包括 Perl, Java, NET 和 PHP 一 一 的 基础 。 为 了 帮 
助 读者 理解 每 一 部 分 ， 我 交叉 使 用 各 章 的 知识 ， 为 了 提供 尽 可 能 方便 的 索引 ， 我 投入 了 大 
量 的 精力 (全书 中 有 超过 1 200 处 交叉 引用 ， 它 们 以 符号 加 页 码 的 形式 标注 )。 


在 读 完整 个 故事 以 前 ， 最 好 不 要 把 本 书 作 为 参考 手册 。 在 开始 阅读 之 前 ， 读 者 可 以 参考 其 
中 的 表格 ， 例 如 第 92 页 的 图 表 ， 想 象 它 代表 了 需要 掌握 的 相关 信息 。 但 是 ， 还 有 大 量 背 景 
信息 没有 包含 在 图 表 中 ， 而 是 隐藏 在 故事 里 。 读 者 阅读 完整 个 故事 之 后 ， 会 对 这 些 问 题 有 
个 清晰 的 概念 ， 哪 些 能 够 记 起 来 ， 哪 些 需要 温习 。 


组 织 结构 


Organization 


全 书 共 10 章 ， 可 以 从 逻辑 上 粗略 地 分 为 三 类 ， 下 面 是 总 体 概 览 


导 引 
第 1 章 : 介绍 正则 表达 式 的 基本 概念 。 
第 2 章 : 考察 利用 正则 表达 式 进行 文本 处 理 的 过 程 。 
第 3 章 : 提供 对 于 特性 和 工具 软件 的 概述 以 及 简 史 。 
细节 
第 4 章 : 揭示 了 正则 表达 式 的 工作 原理 的 细节 。 
第 5 章 : 利用 第 4 章 的 知识 ， 继 续 学 习 各 种 例子 。 
第 6 章 : 详细 讨论 效率 问题 。 
特定 工具 的 知识 
BTR: 详细 讲解 Perl 的 正则 表达 式 。 
第 8 章 : 讲解 Sun 提供 的 java.util.regex 包 。 
第 9 章 : 讲解 .NET 的 语言 中 立 的 正则 表达 式 包 。 
第 10 章 : 讲解 PHP 中 提供 正则 功能 的 preg 套件 。 


www.TopSage.com 


IV we 


导 引 部 分 会 把 完全 的 门外汉 变 成 “对 问题 有 感觉 ”的 新 手 。 对 正则 表达 式 有 一 定 经 验 的 读 
者 完全 可 以 快速 翻阅 这 些 章节 ， 不 过 ， 即 使 是 对 于 相当 有 经 验 的 读者 来 说 ， 我 仍然 要 特别 
推荐 第 3 章 。 


© 第 1 章 正则 表达 式 入 门 ， 是 为 完全 的 门外汉 准备 的 。 我 以 应 用 相当 广泛 的 程序 egrep 
为 例 来 介绍 正则 表达 式 ， 我 也 提供 了 我 的 视角 : 如 何 “理解 ”正则 表达 式 ， 来 为 后 面 
章节 所 包括 的 高 级 概念 打下 坚实 的 基础 。 即 使 是 有 经 验 的 读者 ， 浏 览 本 章 也 会 有 所 收 
获 。 


”第 2 章 入 门 示例 拓展 ， 考 察 了 支持 正则 表达 式 的 程序 设计 语言 的 真实 文本 处 理 过 程 。 
附加 的 示例 提供 了 后 面 章节 详细 讨论 的 基础 ， 也 展示 了 高 级 正则 表达 式 调 校 背后 的 重 
要 思考 过 程 。 为 了 让 读者 学 会 “正则 表达 式 的 套路 "， 这 章 出 现 了 一 个 复杂 问题 ， 并 讲 
解 了 两 种 全 然 不 相关 的 工具 如 何 分 别 通过 正则 表达 式 来 解决 它 。 


” BIR 正则 表达 式 的 特性 和 流派 概览 , 提供 了 当前 经 常 使 用 的 工具 的 多 种 正则 表达 式 
的 概览 。 因 为 历史 的 混乱 ， 当 前 常用 的 正则 表达 式 的 类 型 可 能 差异 巨大 。 此 章 同时 介 
绍 了 正则 表达 式 以 及 使 用 正则 表达 式 的 工具 的 历史 和 演化 历程 。 本 章 末 尾 也 提供 了 “高 
级 话题 引导 ”"。 此 引导 是 读者 学 习 此 后 高 级 内 容 的 路 线 图 。 


细节 


The Details 


了 解 了 基础 知识 之 后 ， 读 者 需要 和 弄 明白 “如 何 使 用 ”及 “这 么 做 的 原因 ”。 就 像 “ 授 人 以 渔 ” 
的 典故 一 样 ， 真 正 懂得 正则 表达 式 的 读者 ， 能 够 在 任何 时 间 、 任 何 地 点 应 用 关于 它 的 知识 。 


° 第 4 章 表达 式 的 匹配 原理 ， 循 序 渐进 地 导入 本 书 的 核心 。 它 从 实践 的 角度 出 发 ， 考 察 
了 正则 引擎 真实 工作 的 重要 的 内 在 机 制 。 懂 得 正则 表达 式 如 何 处 理工 作 细节 ， 对 读者 
掌握 它们 大 有 神 益 。 


。 第 5 章 正则 表达 式 实用 技巧 ,教育 读者 在 高 层次 和 实际 的 运用 中 应 用 知识 。 这 一 章 会 
详细 讲解 常见 (但 复杂 ) 的 问题 ， 目 的 在 于 拓展 和 深化 读者 对 于 正则 表达 式 的 认识 。 
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。 第 6 章 打造 高 效 正 则 表达 式 , 考察 真实 生活 中 大 多 数 程序 设计 语言 提供 的 正则 表达 式 
的 高 效 结果 。 本 章 运用 第 4 章 和 第 5 章 详细 讲解 的 知识 ， 来 开发 引擎 的 能 力 ， 并 避免 
其 中 的 缺陷 。 


特定 工具 的 知识 


Tool-Specific Information 


学 习 完 第 4、5、6 章 的 读者 ， 不 太 需 要 知道 特定 的 实现 。 不 过 ， 我 还 是 用 了 4 个 整 章 来 讲 
解 4 种 流行 的 语言 。 


© 第 7 音 Perl， 详 细 讲解 了 Perl 的 正则 表达 式 ，Perl 大 概 是 目前 最 流行 的 主要 的 正则 表 
达 式 编程 语言 。 在 Perl 中 ， 与 正则 表达 式 相 关 的 操作 符 只 有 四 个 ， 但 它们 组 合 出 的 选 
项 和 特殊 情形 带 来 了 大 量 的 程序 选项 一 一 同时 还 有 陷阱 。 对 没有 经 验 的 开发 人 员 来 说 ， 
这 种 极其 丰富 的 选项 能 够 让 他 们 迅速 从 概念 转向 程序 ， 当 然 也 可 能 是 雷 场 。 本 章 的 详 
细 介 绍 有 助 于 给 读者 指出 一 条 光明 大 道 。 





。 第 8 章 Java, 详细 介绍 了 java.util.regex 包 , 从 Java 1.4 以 后 , 它 已 经 成 为 了 Java 
语言 的 标准 部 分 。 本 章 主要 关注 的 是 Java 1.5， 但 也 提 及 了 它 与 Java 1.4.2 和 Java 1.6 
的 差别 。 


。 第 9 章 NET, 是 微软 尚未 提供 的 .NET 正则 表达 式 库 的 文档 。 无 论 使 用 VB.NET、C#、 
C++, JScript, VBScript, ECMAScript 还 是 使 用 .NET 组 件 的 其 他 语言 ， 本 章 都 提供 了 
详细 内 容 ， 让 读者 能 够 充分 利用 .NET 的 正则 表达 式 。 


° 第 10 章 PHP, 简要 介绍 了 PHP 内 做 的 多 个 正则 引擎 , 并 详细 介绍 了 preg 正则 表达 式 
套件 (regex engine) 的 类 型 和 API， 这 些 是 由 PCRE 正则 表达 式 库 提供 的 。 


体例 说 明 


Typographical Conventions 


在 进行 (或 者 谈论 ) 详细 的 和 复杂 的 文本 处 理 时 ， 保 持 精 确 性 是 很 重要 的 。 差 一 个 空格 字 
符 ， 可 能 导致 截然 不 同 的 结果 ， 所 以 我 会 在 本 书 中 使 用 下 面 的 惯例 : 


。 ”正则 表达 式 以 this, 的 形式 出 现 。 两 端的 符号 表示 “里 面 有 一 个 正则 表达 式 ”, 而 正则 
表达 式 文 字 (例如 用 来 检索 的 表达 式 ) 以 “this” 的 形式 出 现 。 有 时 候 ， 省 略 两 端的 
符号 和 单 引号 也 不 会 造成 歧义 ， 此 时 我 会 省 略 它们 。 同 样 ， 屏 幕 截图 通常 以 原来 的 样 
子 出 现 ， 而 不 会 用 到 上 面 两 种 符号 。 


‘il 
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前 言 
在 文字 文本 和 表达 式 内 部 的 省 略 号 会 被 特别 标 出 。 例 如 ，[…] 表 示 一 对 方 括号 ， 之 间 
的 内 容 无 关 紧 要 ， 而 [表示 一 对 方 括号 ， 其 中 包含 三 个 句点 。 


如 果 没 有 明确 数字 ， 可 能 很 难 判断 “a ”b” 之 间 有 多 少 空格 ， 所 以 出 现在 正则 表达 式 
和 文字 文本 中 的 空格 以 “*” 表 示 。 这 样 “a…*b” 就 清楚 多 了 。 


我 使 用 可 见 的 制 表 符 ， 换 行 符 和 回 车 字符 : 





有 时 候 ， 我 会 使 用 下 画 线 或 有 色 背 景 高 亮 标注 文字 文本 或 正则 表达 式 的 一 部 分 。 下 面 
这 句 话 中 ， 下 画 线 的 部 分 表示 表达 式 真 正 匹 配 的 部 分 : 


Because ‘cat, matches “IE'indicates*your'cat'is… instead of the word ‘cat’, 


we realize... 
这 个 例子 中 ， 下 画 线 的 部 分 高 亮 标 记 了 表达 式 中 添加 的 字符 : 


To make this useful, we can wrap “Subjecct1Datel with parentheses, and append a 


j a è [ 2 = 
colon and a space. This yields | (Subject | Date) :*) 


本 书包 含 了 大 量 的 细节 和 例子 ， 所 以 我 设置 了 超过 1 200 处 的 交叉 引用 ， 帮 助 读者 理 
解 。 它 们 通常 表示 为 “= 123 ， 意 思 是 “请 参阅 第 123 页 ”。 举 个 例子 :“… 的 说 明 在 
表 8-2 中 (=367) 。 


练习 


Fxercises 


有 时 候 我 会 问 个 问题 ， 帮 助 读者 理解 正在 讲解 的 概念 ， 尤 其 是 在 前 几 章 这 种 问题 更 多 。 它 
们 并 不 是 摆设 ， 我 希望 读者 在 继续 阅读 之 前 认真 想 想 。 请 记 住 我 的 话 ， 不 要 忽略 它们 的 重 
要 意义 ， 本 书 中 这 样 的 问题 并 不 多 。 它 们 可 以 当 作 自我 测试 题 ， 如 果 不 是 几 句 话 就 能 说 明 
白 的 问题 ， 最 好 是 在 复习 相关 章节 之 后 再 继续 阅读 。 


为 了 避免 读者 直接 看 到 问题 的 答案 ， 我 使 用 了 一 点 技巧 : 问题 的 答案 都 必须 翻 页 才能 看 到 。 
通常 你 必须 翻 过 一 页 才能 看 到 标 着 令 的 答案 。 这 样 答案 在 你 思考 问题 的 时 候 没 法 直接 看 到 ， 
但 又 很 容易 获得 。 
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链接 、 代 码 、 勤 误 及 联系 方式 


Links, Code Errata, and Contacts 


写 第 1 版 时 ， 我 发 现 修改 书本 上 的 URL， 保 持 与 实际 一 致 是 件 很 费 工 夫 的 事情 ， 所 以 ， 我 
没有 在 书后 罗列 一 个 URL 附录 ， 而 是 提供 统一 的 地 址 : 


http://regex.info 


在 这 里 你 可 以 找到 与 正则 表达 式 相关 的 链接 ， 书 中 的 所 有 代码 ， 可 检索 的 索引 以 及 其 他 资 
源 。 本 书 也 可 能 存在 错误 @@， 所 以 我 提供 了 勘误 。 


如 果 你 找到 书 中 的 错误 ， 或 者 仅仅 是 希望 给 我 写 几 句 话 ， 请 写 邮 件 到 : jfriedl@regex.info。 


我 们 已 尽力 核验 本 书 所 提供 的 信息 ， 尽 管 如 此 ， 仍 不 能 保证 本 书 完全 没有 瑕 症 ， 而 网 络 世 
界 的 变化 之 快 ， 也 使 得 本 书 永 不 过 时 的 保证 成 为 不 可 能 。 如 果 读 者 发 现 本 书 内 容 上 的 错误 ， 
不 管 是 鞭 字 、 错 字 、 语 意 不 清 ， 其 至 是 技术 错误 ， 我 们 都 竭诚 虚心 接受 读者 指教 。 如 果 您 
有 任何 问题 ， 请 按照 以 下 的 联系 方式 与 我 们 联系 。 


奥 莱 理 软件 (北京) 有限 公司 
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Visual C++(VC/MFC) 学 习 电 子 书 及 开发 工具 下 载 
Perl/CGI 脚本 语言 编程 学 习 资 源 下 载 地 址 大 全 
Python 语言 编程 学 习 资料 (电子 书 + 视 频 教程 ) 下 载 汇总 
最 新 最 全 Ruby、Ruby on Rails 精品 电子 书 等 学 习 资 料 下 载 
数据 库 精 品 学 习 资源 汇总 ，MySQL 篇 | SQL Server 篇 | Oracle 篇 
最 强 HTML/xHTML、CSS 精品 学 习 资料 下 载 汇 总 
最 新 JavaScript, Ajax 典藏 级 学 习 资 料 下 载 分 类 汇总 
网 络 最 强 PHP 开发 工具 + 电子 书 + 视 频 教程 等 资料 下 载 汇 总 
UML 学 习 电子 资 下 载 汇总 软件 设计 与 开发 人 员 必 备 
经 典 LinuxCBT 视频 教程 系列 Linux 快速 学 习 视 频 教程 一 帖 通 
天 罗 地 网 :精品 Linux 学 习 资 料 大 收集 (电子 书 + 视 频 教 程 ) Linux 参考 资源 大 系 
Linux 系统 管理 员 必 备 参考 资料 下 载 汇总 
Linux shell、 内 核 及 系统 编程 精品 资料 下 载 汇 总 
UNIX 操作 系统 精品 学 习 资 料 < 电子 书 + 视 频 > 分 类 总 汇 
FreeBSD/OpenBSD/NetBSD 精品 学 习 资源 索引 含 书籍 + 视频 
Solaris/ OpenSolaris 电子 书 、 视 频 等 精华 资料 下 载 索引 
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正则 表达 式 入 站 


Introduction to Regular Expressions 


想象 一 下 这 幅 图 景 : 你 需要 检索 某 台 Web 服务 器 上 的 页 面 中 的 重复 单词 (例如 “this this”), 
进行 大 规模 文本 编辑 时 ， 这 是 一 项 常见 的 任务 。 程 序 必须 满足 下 面 的 要 求 : 


。 ”能 检查 多 个 文件 ， 挑 出 包含 重复 单词 的 行 ， 高 亮 标记 每 个 重复 单词 (使 用 标准 ANSI 
的 转 义 字符 序列 (escape sequence) ) ， 同 时 必须 显示 这 行文 字 来 自 哪个 文件 。 
。 REBIER, 即使 两 个 单词 一 个 在 某 行 末尾 而 另 一 个 在 下 一 行 的 开头 , 也 算 重复 单词 。 


。 能 进行 不 区 分 大 小 写 的 覃 我 ， 例如 “7 ,the…" ， 重 复 单词 之 间 可 以 出 现任 意 数量 的 
SAFE (Sine A RENA honn. 


。。 能 查找 用 HTML tag 9 RAN. Wve File LC 例如 ， 
ani sit is <E i ry</B> very important- 


这 些 问题 并 不 容易 解决， ene 曾 用 一 个 工具 来 检查 
已 经 写 好 的 部 分 ， 我 惊奇 地 发 WA Hin, 能 够 解决 这 种 问题 的 编程 
语言 有 许多 ， 但 是 用 支持 正则 表达 式 单 。 


正则 表达 式 eat xen), 和 HE tiki / 处 理工 具 。 正则 表达 式 本 身 ， 
we 通 ; ARAR mien en, : otation) ， 赋 予 使 用 者 描述 
提供 的 产 外 支持 ， 正 则 ces en. 删除 、 分 离 、 

















和 
二 D 
GS j Š, EN D Ni NS ect LN 
ONE wa See 
AS tt i CS SN 
DN SN 
à d ¥ eh) | eRe 
RŠ < ir. 了 Fa AR 
译注 1: whitespace 244 “Z 6^, space 和 "S, Ts 将 两 者 分 别 翻 译 为 “空白 字 
符 ” 与 “空格 符 ”。 
L 
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2 第 ! 章 : 正则 表达 式 入 门 


正则 表达 式 的 使 用 难度 只 相当 于 文本 编辑 器 的 搜索 命令 ， 但 功能 却 与 完整 的 文本 处 理 语 言 
一 样 强大 。 本 书 将 向 读者 展示 正则 表达 式 提 高 生产 率 的 诸多 办 法 。 它 会 教导 读者 如 何 学 会 
用 正则 表达 式 来 思考 (think regular expressions) ， 以 便于 掌握 它们 ， 充 分 利用 它们 的 强大 功 
能 。 


如 果 使 用 当今 流行 的 程序 设计 语言 ， 解 决 重复 单词 问题 的 完整 程序 可 能 仅仅 只 需要 几 行 代 
码 。 使 用 一 个 正则 表达 式 的 搜索 和 替换 命令 ， 读 者 就 可 以 查找 文档 中 的 重复 单词 ， 并 把 它 
们 标记 为 高 亮 。 加 上 另 一 个 ， 你 可 以 删除 所 有 不 包含 重复 单词 的 行 (只 留 下 需要 在 结果 中 
出 现 的 行 )。 最 后 ， 利 用 第 二 个 正则 表达 式 ， 你 可 以 确保 结果 中 的 所 有 行 都 以 它 所 在 文件 的 
名 字 开 头 。 在 下 一 章 里 ， 我 们 会 看 到 用 Perl 和 Java 编写 的 程序 。 


宿主 语言 (例如 Perl, Java 以 及 VB.NET) 提供 了 外 围 的 处 理 支 持 , 但 是 真正 的 能 力 来 自 正 
则 表达 式 。 为 了 驾驭 这 种 语言 ， 满 足 自己 的 需求 ， 读 者 必须 知道 如 何 构 建 正 则 表达 式 ， 才 
能 识别 符合 要 求 的 文本 ， 同 时 忽略 不 需要 的 文本 。 然 后 ， 就 可 以 把 表达 式 和 语言 支持 的 构 
建 方式 结合 起 来 ， 真 正 处 理 这 些 文本 (加 入 合适 的 高 亮 标记 代码 ， 删 除 文本 ， 修 改 文本 ， 
等 等 )。 


解决 实际 问题 


Solving Real Problems 


掌握 正则 表达 式 ， 可 能 带 来 超 乎 你 之 前 想象 的 文本 处 理 能 力 。 每 一 天 ， 我 都 依靠 正则 表达 
式 解 决 各 种 大 大 小 小 的 问题 (通常 的 情况 是 ， 问 题 本 身 并 不 复杂 ， 但 没有 正则 表达 式 就 成 
了 大 问题 )。 


要 说 明正 则 表达 式 的 价值 ， 可 以 举 一 个 用 正则 表达 式 解 决 大 而 重要 的 问题 的 例子 ， 但 是 它 
不 一 定 能 代表 旺 则 表达 式 在 平时 解决 的 那些 “不 值 一 提 ”(uninteresting) 的 问题 。 这 里 的 “不 
值 一 提 是 指 这 类 问题 并 不 能 成 为 读 盗 ， 可 是 不 解决 它们 ， 你 就 没 法 继续 干 活 。 


举人 外 简单 的 例子 ， 我 需要 检查 许多 文件 (事实 上 ， 本 书 的 手稿 存放 在 70 个 文件 中 ) ， 确 保 
每 一 和 中 e'seesiee” 出 现 的 次 数 与 “Resetsize” 的 一 样 多 。 为 了 应 付 复杂 的 情况 ， 我 还 
需要 考虑 大 小写 的 情况 (举例 来 说 ，“setsIzE” 也 算 做 “setsize')。 人 工 检 查 32 000 íF 
文字 显然 不 现实 。 
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即便 使 用 文本 编辑 器 的 “单词 查找 ”功能 ， 也 不 够 方便 ， 尤 其 是 对 所 有 文件 进行 同样 的 操 
作 ， 何 况 还 需要 考虑 所 有 可 能 的 大 小 写 情况 。 


正则 表达 式 就 是 解决 这 个 问题 的 灵丹妙药 。 只 需要 一 个 简单 的 命令 ， 我 就 能 够 检查 所 有 的 
文件 ， 获 得 我 需要 知道 的 结果 。 时 间 是 : 写 命令 大 概 15 秒 ， 检 索 所 有 的 数据 实际 只 花 了 2 
秒 。 这 真是 棒 极 了 (如果 您 想 知 道 这 是 怎么 做 到 的 ， 不 妨 现 在 就 翻 到 第 36 T)! 


再 举 一 个 例子 ， 我 曾 帮 助 一 个 朋友 处 理 远 端 机 器 上 的 某 些 E-mail， 他 希望 我 把 他 邮箱 文件 
中 的 消息 作为 列表 发 送 给 他 。 我 可 以 把 整个 文件 导入 文本 编辑 器 ， 手 工 删除 所 有 信息 ， 只 
留 下 邮件 头 中 的 几 行 ， 作 为 内 容 的 列表 。 尽 管 文件 不 是 很 大 ， 连 接 速 度 也 不 算 慢 ， 这 样 的 
任务 还 是 很 耗费 时 间 而 且 很 乏味 。 而 且 ， 宕 见 他 的 邮件 正文 ， 也 令 我 尴 绽 。 


正则 表达 式 再 一 次 提供 了 帮助 ! 我 用 一 个 简单 的 命令 (使 用 本 章 稍 后 提 到 的 一 个 常用 工具 
egrep) 显示 每 封 邮件 的 From: 和 subject :字段 。 为 了 告诉 egrep 我 需要 提取 哪些 行 ， 我 使 
用 了 正则 表达 式 “(Fromisbuject) :1。 


朋友 得 到 这 个 列表 之 后 ， 让 我 找 一 封 特殊 的 (5 000 行 !) 邮件 。 使 用 文本 编辑 器 或 者 邮件 
系统 来 提取 一 封 邮件 无 疑 非常 耗 时 。 相 反 ， 我 借助 另 一 个 工具 (叫做 sed), ， 同 样 使 用 正则 
表达 式 来 描述 文件 中 我 需要 的 内 容 。 这 样 ， 我 能 迅速 而 方便 地 提取 和 发 送 需 要 的 邮件 。 


使 用 正则 表达 式 节省 下 来 的 时 间或 许 并 不 能 让 人 “激动 "， 但 总 比 把 时 间 消 耗 在 文本 编辑 器 
中 要 好 。 如 果 我 不 知道 有 正则 表达 式 这 种 玩意 儿 ， 根 本 就 不 会 想到 还 有 别 的 解决 办 法 。 所 
以 ， 这 个 故事 告诉 我 们 ， 正 则 表达 式 和 相关 的 工具 能 够 让 我 们 以 可 能 未 曾 想 过 的 方式 来 解 
决 问题 。 


一 旦 掌握 了 正则 表达 式 ， 你 就 会 知道 到 它 简 直 是 工具 中 的 无 价 之 宝 ， 你 也 难以 想象 之 前 那 
些 没有 正则 表达 式 的 日 子 是 怎么 度 过 的 ( 注 1)。 


全 面 掌 担 正则 表达 式 是 很 有 用 的 。 本 书 提供 了 掌握 这 种 技能 所 需要 的 信息 ， 我 同时 也 希望 ， 
这 本 书 也 提供 了 促使 你 学 习 的 动机 。 


注 1: Mit TiVo (译注 : TiVo 是 一 种 数字 录像 机 ， 具 有 许多 神奇 的 功能 ， 例 如 根据 用 户 的 偏好 
自动 录制 节目 ， 自 动 跳 过 电视 台 的 广告 ， 等 等 ) 的 人 都 体验 过 这 种 感觉 。 
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4 第 l 章 : 正则 表达 式 入 门 


作为 编程 语言 的 正则 表达 式 


Regular Expressions as a Language 


如 果 没 有 正则 表达 式 相关 经 验 , 读者 可 能 无 法 理解 上 个 例子 中 正则 表达 式 “(FromlSubject) +) 
的 意义 ， 但 是 这 个 表达 式 并 没有 什么 神奇 之 处 。 其 实 魔术 本 身 也 不 神奇 ， 只 是 缺乏 训练 的 
普通 观众 不 明白 魔术 师 掌 操 的 那些 技巧 而 已 。 如 果 你 也 懂得 如 何在 手中 藏 一 张 牌 ， 那 么 ， 

熟练 之 后 ， 你 也 可 以 “ 变 魔 术 "。 外 语 也 是 这 样 一 一 一 旦 掌握 了 一 门 外 语 ， 你 就 不 会 觉得 它 
REET. 


以 文件 名 做 类 比 


The Filename Analogy 


选择 这 本 书 的 读者 ， 大 概 对 “正则 表达 式 ” 多 少 有 点 认识 。 即 便 没 有 ， 也 应 该 熟悉 其 中 的 
基本 概念 。 


我 们 都 知道 ，report.txt 是 一 个 文件 名 ， 但 是 ， 如 果 你 用 过 Unix 或 者 DOS/Windows 的 话 ， 
就 会 知道 “* .txt” 能 够 用 来 选择 多 个 文件 。 在 此 类 文件 名 ( 称 为 “文件 群 组 ”file globs 或 
者 “通配符 ”wildcards) 中 ， 有 些 字符 具有 特殊 的 意义 。 星 号 表示 “任意 文本 ”， 问 号 表示 
“任意 单个 字符 "。 所 以 ,文件 群 组 “* .txt” 以 能 够 匹配 字符 的 *) 符 号 开头 , 以 普通 文字 
‘ext BR, MA, CARRE: 选择 以 任意 文本 开头 ， 以 .txt 结尾 的 所 有 文件 。 


大 多 数 系统 都 提供 了 少量 的 附加 特殊 字符 (additional special characters) ， 但 是 ， 总 的 来 说 ， 
这 些 文件 名 模式 (filename patterns) 的 表达 能 力 还 很 有 限 。 不 过 ， 因 为 这 类 问题 的 领域 很 
狭 窗 一 一 只 涉及 文件 名 ， 所 以 这 算 不 上 缺陷 。 


不 过 ,处 理 普通 的 文本 就 没有 这 么 简单 了 。 散 文 、 诗 、 程 序 代码 、 报 表 、HTML、 表 格 、 单 
词 表 …… 到 你 想 得 出 的 任何 文本 。 如 果 某 种 特殊 的 需求 足够 专业 ， 例 如 “选择 文件 ”"， 我 们 
可 以 发 明 一 些 特殊 的 办 法 和 工具 来 解决 问题 。 不 过 ， 近 年 来 ， 一 种 “通用 的 模式 语言 ” 
(generalized pattern language) 已 经 发 展 起 来 ， 它 功能 强大 ， 撕 述 能 力也 很 强 ， 可 以 用 来 解 
决 各 种 问题 。 不 同 的 程序 以 不 同 的 方式 来 实现 和 使 用 这 种 语言 ， 但 是 综合 来 说 ， 这 种 功能 
强大 的 模式 语言 和 模式 本 身 被 称 为 “正则 表达 式 ” (regular expression), 
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以 语言 做 类 比 


The Language Analogy 


完整 的 正则 表达 式 由 两 种 字符 构成 。 特 殊 字符 (special characters， 例 如 文件 名 例子 中 的 * ) 
称 为 “元 字符 ”(metacharacters), 其 他 为 “文字 ”(literal), 或 者 是 普通 文本 字符 (normal text 
characters)。 正 则 表达 式 与 文件 名 模式 (filename pattern) 的 区 别 就 在 于 ， 正 则 表达 式 的 元 
字符 提供 了 更 强大 的 描述 能 力 。 文 件 名 模式 只 为 有 限 的 需求 提供 了 有 限 的 元 字符 ， 但 是 正 
则 表达 式 “ 语 言 ”为 高 级 应 用 提供 了 丰富 而 且 描述 力 极 强 的 元 字符 。 


为 了 便于 理解 ， 我 们 可 以 把 正则 表达 式 想 象 为 普通 的 语言 ， 普 通 字 符 对 应 普通 语言 中 的 单 
词 ， 而 元 字符 对 应 语法 。 根 据 语 言 的 规则 ， 按 照 语法 把 单词 组 合 起 来 ， 就 会 得 到 能 传达 思 
想 的 文本 。 在 E-mail 的 例子 中 ， 我 用 正则 表达 式 ~(Fromlsubject) :1 来 寻找 以 “From:， 
或 者 “Subject : ”开头 的 行 。 下 画 线 标注 的 就 是 特殊 字符 ， 稍 后 我 们 将 解释 它们 的 含义 。 


就 像 学习 任 何 一 门 外 语 一 样 ， 第 一 眼看 上 去 ， 正 则 表达 式 很 不 好 理解 。 这 也 是 那些 对 它 只 
有 粗浅 了 解 或 者 根本 不 了 解 的 人 觉得 正则 表达 式 很 神奇 的 原因 。 但 是 ， 就 像 学 日 语 的 人 很 
快 就 能 理解 正规 表现 仁 简 单 龙 上 ! ( 注 2) 一 样 ， 读 者 很 快 也 能 够 彻底 明白 下 面 这 个 正则 表 
达 式 的 含义 : 


s!<emphasis>([0-9]+(\.[0-9]+){3})</emphasis>!<inet>$l</inet>! 


这 个 例子 取 自 一 个 Perl 脚本 ， 我 的 编辑 器 用 它 来 修改 手稿 。 手 稿 的 作者 错误 地 使 用 了 
<emphasis> 这 个 tag 来 标注 IP 地址 (类似 209.204.146.22 这 样 由 数字 和 点 号 构成 的 字符 
串 )。 其 中 的 奥妙 就 在 于 使 用 Perl 的 文本 替换 命令 ， 使 用 : 


‘<emphasis>([{0-9}+(\.{0-9]+) {3}) </emphasis>; 


把 IP 地 址 两 端的 tag 替换 为 <inet>， 而 不 改动 其 他 的 <emphasis> 标 签 。 在 后 面 的 章节 中 ， 
读者 会 了 解 这 个 表达 式 的 构造 细节 ， 然 后 就 能 按照 自己 的 需求 ， 在 自己 的 应 用 程序 或 者 开 
发 语言 中 应 用 这 些 技巧 。 


2: 这 向 话 的 惠 思 是 ，“ 正 则 表达 式 很 简单 !"。 有 趣 的 是 ， 就 像 第 3 章 介绍 的 ,“ 正 则 表达 式 ” 
这 个 术语 来 自 形 式 代数 。 问 我 这 本 书 的 主题 的 人 ， 如 果 对 这 个 概念 不 邢 喜 ， 听 到 “正则 表 
达 式 ”多 半 会 满腔 茫然 。 正 则 表达 式 在 日 文中 写作 ， 正 规 表 现 ， 同 它 的 英文 名 字 一 样 不 好 
理解 ， 但 是 我 用 日 语 来 回答 通常 会 令 人 反应 更 奇怪。 因为 在 日 文中 ,“ 正 则 ”(regular) 很 
不 幸 地 与 一 个 表示 “生殖 器 官 ” 的 医学 术语 发 音 相同 。 读 者 可 以 想象 ， 在 我 没有 解释 之 前 ， 
人 们 会 有 多 么 惊奇 。 
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本 书 的 目的 


你 或 许 不 需要 重复 把 <emphasis> 赫 换 为 <inet> 的 工作 ,不 过 很 可 能 需要 解决 “把 这 些 文字 
替换 为 那些 文字 ”的 问题 。 本 书 的 目的 不 是 提供 具体 问题 的 解决 办 法 ， 而 是 教会 读者 利用 
正则 表达 式 来 思考 ， 解 决 遇 到 的 各 种 问题 。 


正则 表达 式 的 思维 框架 


The Regular-Expression Frame of Mind 


我 们 将 会 看 到 ， 完 整 的 正则 表达 式 由 小 的 构建 模块 单元 (building block unit) 组 成 。 每 个 单 
独 的 构建 模块 都 很 简单 ， 不 过 因为 它们 能 够 以 无 穷 多 种 方式 组 合 ， 将 它们 结合 起 来 实现 特 
殊 目 标 必须 依靠 经 验 。 所 以 ， 本 章 提供 了 有 关 正 则 表达 式 的 若干 概念 的 总 体 描述 。 这 一 章 
并 没有 艰 碎 的 内 容 ， 而 是 为 本 书 其 余 章 节 的 知识 打下 基础 ， 在 深入 探索 正则 表达 式 之 前 ， 
把 相关 事宜 曾 释 清楚 。 


某 些 例 子 看 起 来 可 能 有 点 无 聊 《 因 为 它们 确实 无 聊 ) ， 但 它们 代表 了 一 类 需要 完成 的 任务 ， 
只 是 读者 目前 可 能 还 没有 意识 到 。 即 使 觉得 每 个 例子 的 意义 都 不 大 也 不 必 担 心 ， 慢 慢 理 解 
其 中 的 道理 就 好 。 这 就 是 本 章 的 目的 。 


对 于 有 部 分 经 验 的 读者 


If You Have Some Regular-Expression Experience 


如 果 读 者 已 经 熟悉 正则 表达 式 ， 这 些 综述 便 设 有 太 大 价值 ， 但 务必 不 要 忽略 它们 。 你 或 许 
明白 某 些 元 字符 的 基本 意义 ， 但 某 些 思维 和 看 待 正则 表达 式 的 方式 可 能 是 你 不 了 解 的 。 


就 像 真 正 懂 演 奏 和 仅仅 会 弹 奏 之 间 差 别 现 异 一 样 ， 了 解 正则 表达 式 和 真正 理解 正则 表达 式 
并 不 是 一 回 事 。 某 些 内 容 可 能 会 重复 读者 已 经 了 解 的 知识 ， 但 方式 可 能 与 之 前 的 不 同 ， 而 
且 这 些 方 式 正 是 真正 理解 正则 表达 式 的 第 一 步 。 


检索 文本 文件 ， Egrep 


Searching Text Files: Egrep 


文本 检索 是 正则 表达 式 最 简单 的 应 用 之 一 一 一 许多 文本 编辑 器 和 文字 处 理 软件 都 提供 了 正 
则 表达 式 检索 的 功能 。 最 简单 的 就 是 egrep。 在 指定 了 正则 表达 式 和 需要 检索 的 文件 之 后 ， 
egrep 会 尝试 用 正则 表达 式 来 匹配 每 个 文件 的 每 一 行 ， 并 显示 能 够 匹配 的 行 。 


it 
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人 vv 了 


许多 系统 一 一 例如 DOS, MacOS, Windows, Unix 等 等 一 一 都 对 应 有 免费 提供 的 egrep。 在 
本 书 的 网 页 http-//regex.info 上 可 以 找到 获得 对 应 读者 操作 系统 的 egrep 拷贝 的 链接 。 


回 到 第 3 页 的 E-mail 的 例子 ,真正 用 来 从 E-mail 文件 中 提取 结果 的 命令 如 图 1-1 所 示 。egrep 
把 第 一 个 命令 行 参数 视 为 一 个 正则 表达 式 ， 剩 下 的 参数 作为 待 搜 检索 的 文件 名 。 注 意 ， 图 
1-1 中 的 单 引号 并 不 是 正则 表达 式 的 一 部 分 ， 而 是 根据 command shell 需要 添加 的 ( 注 3)。 

使 用 egrep ht, 我 通常 用 单 引号 来 包围 正则 表达 式 。 如果 要 在 支持 对 正则 表达 式 提供 了 完整 
支持 的 程序 设计 语言 中 使 用 正则 表达 式 一 一 这 是 下 一 章 开头 的 内 容 ， 重 要 的 问题 是 知道 特 
殊 字符 有 哪些 ， 具 体 文本 是 什么 ,针对 什么 对 象 (什么 表达 式 ， 什 么 工具 软件 )， 以 及 按 何 
种 顺序 解释 这 些 字符 。 


shell 中 的 引号 
提交 给 egrep 的 正则 表达 式 


Ht 
rs egrep ‘*(From|Subject): 7% mailbox-file 


第 一 个 命令 行 参数 





图 1-1: 通过 命令 行 调 用 egrep 


我 们 马上 就 能 明白 ， 这 个 正则 表达 式 的 各 个 部 分 都 是 什么 意思 ， 但 已 经 知道 某 些 字符 具有 
特殊 含义 的 读者 或 许 能 够 猜 出 大 概 了 。 在 这 里 , “^, 和 |, 都 是 正则 表达 式 的 元 字符 ， 它 们 与 
其 他 字符 结合 起 来 ， 实 现 我 们 期 望 的 功能 。 


如 果 一 个 正则 表达 式 不 包括 任何 egrep 支持 的 元 字符 , 它 就 成 了 一 个 简单 的 “ 纯 文本 ”检索 。 
例如 ， 在 一 个 文件 中 检索 "cat,， 会 显示 任何 包含 cat 这 3 个 连续 字母 的 行 。 例 如 ， 它 包 
括 所 有 出 现 了 vacation 的 行 。 


注 3: command shell 是 操作 系统 的 一 部 分 ， 用 来 接收 用 户 的 命令 ,执行 用 户 请 求 的 程序 ， 在 我 使 
用 的 shell 中 ， 单 引号 用 来 分 组 命令 参数 ， 告 诉 shell 不 必 关 心 其 中 的 内 容 。 如 果 不 这 样 写 ， 
shell 或 许 会 认为 ， 我 在 正则 表达 式 中 使 用 的 “*” 是 需要 解释 的 文件 名 模式 的 一 部 分 。 而 
这 不 是 我 的 意思 ， 所 以 我 用 单 引号 在 shell 中 “屏蔽 (hide)” 元 字符 。 使 用 COMMAND .COM 
或 者 CMD .EXE 的 Windows 用 户 可 能 需要 使 用 双 引 号 而 不 是 单 引号 . | 
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即便 这 行文 本 中 不 包含 单词 cat, vacation 中 包含 的 c'a't 序列 仍然 符合 匹配 条 件 。 如 宁 
某 行 中 包含 vacation, egrep 就 会 把 它 显示 出 来 。 关 键 就 在 于 ， 此 处 进行 的 正则 表达 式 搜 
索 不 是 基于 “单词 ”的 一 一 egrep 能 够 理解 文件 中 的 字 节 和 行 ， 但 它 完 全 不 理解 英语 (或 者 
其 他 任何 语言 ) 的 单词 、 句 子 、 段 落 ， 或 者 是 其 他 复杂 概念 。 





Egrep 元 字符 


Egrep Metacharacters 


现在 我 们 来 看 egrep 中 支持 正则 表达 式 功 能 的 元 字符 。 我 会 用 几 个 例子 来 简要 介绍 它们 , 把 
详细 的 例子 和 描述 留 到 后 面 的 章节 。 


印刷 体例 在 开始 之 前 ,请 务必 回顾 前 言 第 V 页 上 解释 的 体例 说 明 。 本 书 使 用 了 一 些 新 的 文 
字形 式 ， 所 以 某 些 体例 读者 初次 接触 可 能 并 不 熟悉 。 


行 的 起 始 和 结束 


Start and End of the Line 


RRA FERRIC RS tS METAS ST, 在 检查 一 行文 本 时 ，^ 代表 一 
行 的 开始 ，5$) 代表 结束 。 我 们 曾经 看 到 ， 正 则 表达 式 cat, 和 寻找 的 是 一 行文 本 中 任意 位 置 的 
cart, [HÆ cati 只 寻找 行 首 的 c*a*t 一 一 "^ 用 来 把 匹配 文本 (这 个 表达 式 的 其 他 部 分 匹 
配 的 字符 )“ 锚 定 ”(anchor) 在 这 一 行 的 开头 。 同 样 ，cats 只 寻找 位 于 行 末 的 cast, 例如 
以 scat 结尾 的 行 。 


读者 最 好 能 养 成 按照 字符 来 理解 正则 表达 式 的 习惯 。 例 如 ， 不 要 这 样 : 
cat) 匹配 以 cat 开头 的 行 
而 应 该 这 样 理解 : 





“ca 匹配 的 是 以 c 作为 一 行 的 第 一 个 字符 ， 紧 接 一 个 a， 紧 接 一 个 t 的 文本 。 


这 两 种 理解 的 结果 并 无 差异 ， 但 按照 字符 来 解读 更 易于 明白 新 遇 到 的 正则 表达 式 的 内 部 逻 
辑 。egrep 会 如 何 解释 cats OS 和 单个 的 “了 呢 ? © 请 翻 到 下 页 查看 答案 。 


脱 字符 号 和 美元 符号 的 特别 之 处 就 在 于 ， 它 们 匹配 的 是 一 个 位 置 ， 而 不 是 具体 的 文本 。 当 
然 , 有 很 多 方式 可 以 匹配 具体 文本 。 在 正则 表达 式 中 , 除了 使 用 cat, 之 类 的 普通 字符 ,还 
可 以 使 用 下 面 几 节 介 绍 的 元 字符 。 
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字符 组 


Character Classes 
匹配 若干 字符 之 一 


如 果 我 们 需要 搜索 的 是 单词 “grey”， 同 时 又 不 确定 它 是 否 写 作 “gray”， 就 可 以 使 用 正则 表 
达 式 结构 体 (construct) '[…],。 它 容许 使 用 者 列 出 在 某 处 期 望 匹配 的 字符 , 通常 被 称 作 字 符 
组 (character class (译注 2) ) ‘e: 匹配 字符 e, ai 匹配 字符 a, 而 正则 表达 式 '[ea] ,能 匹配 a 
或 者 e。 所 以 ,gr [ealy, 的 意思 是 : 先 找到 g， 跟 着 是 一 个 +r， 然后 是 一 个 a 或 者 e， 最 后 
是 一 个 y。 我 很 不 擅长 拼写 ， 所 以 总 是 用 正则 表达 式 从 一 大 堆 英 文 单词 中 找到 正确 的 拼写 。 
我 经 常 使 用 的 一 个 正则 表达 式 是 'sep [ealr [ealte;， 因 为 我 从 来 都 记 不 住 这 个 单词 到 底 是 
写作 “seperate”,， “separate”, “separete”， 还 是 别 的 什么 样子 。 匹 配 的 结果 的 就 是 正确 的 拼 
法 ， 而 正则 表达 式 就 是 我 的 领路 人 。 


请 注意 , 在 字符 组 以 外 , 普通 字符 (例如 or (aelys RY ‘gs 和 上) 都 有 “ 接 下 来 是 (and then)” 
的 意思 一 一 “首先 匹配 'g/， 接 下 来 是 'r,……”。 这 与 字符 组 内 部 的 情况 是 完全 相反 的 。 字 
符 组 的 内 容 是 在 同一 个 位 置 能 够 匹配 的 若干 字符 ， 所 以 它 的 意思 是 “或 ”。 


来 看 另 一 个 例子 ， 我们 还 必须 考虑 单词 的 第 一 个 字母 为 大 写 的 情况 ， 例 如 ' [ss]mith,。 请 
记 住 ， 这 个 表达 式 仍 然 能 够 匹配 内 媒 在 其 他 单词 里 头 的 smith (或 者 是 smith)， 例 如 
blacksmith。 在 综述 阶段 ， 我 不 打算 为 这 种 情况 费 太 多 笔墨， 但 是 这 确实 是 某 些 新 手 遇 到 
的 问题 的 根源 。 等 了 解 了 更 多 的 元 字符 以 后 ， 我 会 介绍 一 些 办 法 来 解决 单词 媒 套 的 问题 。 


在 一 个 字符 组 中 可 以 列举 任意 多 个 字符 。 例 如 '[123456] ,匹配 1 到 6 中 的 任意 一 个 数字 。 
这 个 字符 组 可 以 作为 “<H[123456] > 的 一 部 分 ， 用 来 匹配 =-H1>、<H2>、<H3> 等 等 。 在 搜索 
HTML 代码 的 头 文件 时 这 非常 有 用 。 


在 字符 组 内 部 ,字符 组 元 字符 (character-class metacharacter)“-”( 连 字符 ) 表示 一 个 范围 
‘<H[1-6] >) 55 '<H(123456] > 是 完全 一 样 的 。[0-9], 和 5a-z], 是 常用 的 匹配 数字 和 小 写字 
母 的 简便 方式 。 多 重 范围 也 是 容许 的 ， 例 如 '[0123456789abcdefABCDEF] | 可 以 写作 
'[0-9a-fA-F]! (或 者 也 可 以 写作 '[A-Fa-f0-9],， 顺 序 无 所 谓 )。 这 3 个 正则 表达 式 非常 适 
用 于 处 理 十 六 进 制 数字 。 我 们 还 可 以 随心 所 和 欲 地 把 字符 范围 与 普通 文本 结合 起 来 : 
'[0-9A-2_!.?]1 能 够 匹配 一 个 数字 、 大 写字 母 、 下 画 线 、 人 惊叹 号 、 点 号 ， 或 者 是 问号 。 


请 注意 ， 只 有 在 字符 组 内 部 ， 连 字符 才 是 元 字符 -一 否则 它 就 只 能 匹配 普通 的 连 字 符号 。 其 
实 ， 即 使 在 字符 组 内 部 ， 它 也 不 一 定 就 是 元 字符 。 如 果 连 字符 出 现在 字符 组 的 开头 ， 它 表 
示 的 就 只 是 一 个 普通 字符 ， 而 不 是 一 个 范围 。 同 样 的 道理 ， 问 号 和 点 号 通常 被 当 作 元 字符 
处 理 , 但 在 字符 组 中 则 不 是 如 此 说 明白 一 点 就 是 ，[0-9&A-z_:.?]! 里 面 , 真正 的 特殊 字符 
就 只 有 那 两 个 连 字符 )。 


译注 2: 台湾 翻译 为 “字符 集 ”"， 但 通常 “字符 集 ” 指 的 是 character set， 为 避免 混淆， 此 处 翻译 
为 “字符 组 ”。 


(tl 
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分 析 ^catSi、^S 和 


4 第 8 页 问题 的 答案 


‘cats; 文字 意义 ， 匹配 的 条 件 是 ， 行 开头 (显然 ， 每 一 行 都 有 开头 )， 然 后 是 字母 
cat, RBATAA, 


应 用 意义 : 只 包含 cat 的 行 一 一 没有 多 余 的 单词 、 空 白字 符 …… 只 有 ‘car’, 

文字 意义 ; 匹配 的 条 件 是 ， 行 开头 ， 然 后 就 是 行 末 尾 。 

应 用 意义 ; 空 行 (没有 任何 字符 ， 包 括 空白 字符 ) 。 

文字 意义 ， 匹 配 条 件 是 行 的 开头 。 

应 用 意义 : 无 意义 | 因为 每 一 行 部 有 开头 ,所 以 每 一 行者 能 匹配 一 一 空 行 也 
不 例外 。 





不 妨 把 字符 组 看 作 独 立 的 微型 语言 。 在 字符 组 内 部 和 外 部 , 关于 元 字符 的 规定 ( 哪 
些 是 元 字符 ， 以 及 它们 的 意义 ) 是 不 同 的 。 


我 们 很 快 就 会 看 到 更 多 的 例子 。 


排除 型 字符 组 


FAs 取代 […]， 这 个 字符 组 就 会 匹配 任何 未 列 出 的 字符 。 例 如 ，[^1-6]) 匹 配 除 了 1 
到 6 以 外 的 任何 字符 。 这 个 字符 组 中 开头 的 “表示 “排除 (negate)”， 所 以 这 里 列 出 的 不 
是 希望 匹配 的 字符 ， 而 是 不 希望 匹配 的 字符 。 


读者 可 能 注意 到 了 ， 这 里 的 和 第 8 页 的 表示 行 首 的 脱 字 符 是 一 样 的 。 字 符 确实 相同 ， 但 意 
义 截 然 不 同 。 英 语 里 的 “wind ， 根 据 情境 的 不 同 ， 可 能 表示 一 阵 强 烈 的 气流 ( 风 )， 也 可 
能 表示 给 钟表 上 发 条 ， 元 字符 也 是 如 此 。 我 们 已 经 看 过 用 来 表示 范围 的 连 字符 的 例子 。 只 
有 在 字符 组 内 部 (而 且 不 是 第 一 个 字符 的 情况 下 )， 连 字符 才能 表示 范围 。 在 字符 组 外 部 ， 
“表示 一 个 行销 点 (line anchor)， 但 是 在 字符 组 内 部 (而且 必 须 是 紧 接 在 字符 组 的 第 一 个 方 
括号 之 后 ) ， 它 就 是 一 个 元 字符 。 请 不 要 担心 一 一 这 就 是 最 复杂 的 情况 ， 接 下 来 的 内 容 比 这 
简单 。 
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来 看 另 一 个 例子 ， 我 们 需要 在 一 堆 英 文 单词 中 搜索 出 一 些 特殊 的 单词 : 在 这 些 单词 中 ， 字 
母 a 后 面 的 字母 不 是 v。 用 正则 表达 式 来 表示 ， 就 是 s[^u],。 用 这 个 正则 表达 式 来 搜索 我 
手头 的 数据 ， 确 实 得 到 了 一 些 结果 ， 但 显然 不 多 ， 其 中 还 有 些 是 我 没 见 过 的 英文 单词 。 


下 面 是 结果 (我 输入 的 命令 用 粗 体 表示 ): 


$ egrep 'q[{*u)' word.list 

Iraqi 

Iraqian 

miqra 

qasida 

qintar 

qoph 

zaqqums 
其 中 有 两 个 单词 值得 注意 : 伊拉克 “Iraq” 和 澳大利亚 航空 公司 的 名 字 “Qantas”"。 尽 管 它们 
都 在 word.list 文件 中 ， 但 都 不 包含 在 egrep ERP, AAU? Cw, ABBAS 


一 页 来 检查 你 的 答案 。 


请 记 住 ， 排 除 型 字符 组 表示 “匹配 一 个 未 列 出 的 字符 (match a character that's not listed)”, 
而 不 是 “不 要 匹配 列 出 的 字符 (don't match what is listed)”。 这 两 种 说 法 看 起 来 一 样 ， 但 是 
Iraq 的 例子 说 明了 其 中 的 细微 差异 。 有 一 种 简单 的 理解 排除 型 字符 组 的 办 法 ， 就 是 把 它们 
看 作 普 通 的 字符 组 ， 里 面包 含 的 是 除了 “排除 型 字符 组 中 所 有 字符 ”以 外 的 字符 。 


用 点 号 匹配 任意 字符 


Matching Any Character with Dot 


元 字符 .，( 通 常 称 为 点 号 dot 或 者 小 点 point) 是 用 来 匹配 任意 字符 的 字符 组 的 简便 写法 。 
如 果 我 们 需要 在 表达 式 中 使 用 一 个 “匹配 任何 字符 ”的 占 位 符 (placeholder), AASR 
方便 。 例 如 ， 如 果 我 们 需要 搜索 03/19/76, 03-19-76 或 者 03.19.76, 不 怕 麻 烦 的 话 用 一 
个 明确 容许 “/*'、'-'、' .的 字符 组 来 构建 正则 表达 式 ， 例 如 '03[-./]19[-./1761/。 也 可 
以 简单 地 尝试 03.19.761 


读者 第 一 次 接触 这 个 表达 式 时 ， 可 能 还 不 清楚 某 些 情况 。 在 03[-./]19[-./176! 中 ,点 号 
并 不 是 元 字符 ， 因 为 它们 在 字符 组 内 部 ( 记 住 ， 在 字符 组 里 面 和 外 面 ， 元 字符 的 定义 和 意 
义 是 不 一 样 的 )。 这 里 的 连 字符 园 样 也 不 是 元 字符 ， 因 为 它们 都 紧 接 在 [ 或 者 [之 后 。 如 
果 连 字符 不 在 字符 组 的 开头 ， 例 如 . -/],， 就 是 用 来 表示 范围 的 ， 在 本 例 中 就 是 错误 的 用 
法 。 


iil 
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测验 答案 


4 第 11 页 问题 的 答案 

Ait A'au AMA ‘Qantas’ RH ‘Iraq’ 7 

Qantas 无 法 匹配 的 原因 是 ,正则 表达 式 要 求 小 写 g， 而 Qantas 中 的 口 是 大 写 和 的 。 如 果 
我 们 改 用 QI^ul ， 就 能 匹配 Qantas， 但 是 其 他 单词 又 不 在 结果 中 了 ， 因 为 它们 不 包括 
大 写 Q。[Qq] [^u] 则 能 找到 上 面 所 有 的 单词 。 


Iraq 的 例子 有 点 迷 夕 人。 正则 表达 式 要 求 q 之 后 蛇 中 一 个 u 以 外 的 字符 ,这 就 排除 了 
q 外 在 行 尾 的 情况 。 通 常 来 说 ， 文 本 行 的 结 足 都 有 一 个 换行 字符 ， 但 是 我 首先 没有 提 
到 (EREE) egrep 会 在 检查 正则 表达 式 之 前 把 这 些 换行 符 去 掉 、 所 以 在 行 尾 的 gq 之 
后 ， 没 有 能 够 匹配 uu 以 外 的 字符 。 

AREA MASH A ( 注 4)。 我 向 你 保证 ， 如 果 egrep 保留 换行 符 (许多 其 他 软件 会 
保留 这 些 符号 )， 或 者 Irag 后 紧 接着 空格 或 者 其 他 单词 ， 这 一 行 就 能 匹配 。 理 解 工具 
软件 的 细节 固然 很 重要 ， 但 现在 我 只 希望 读者 能 通过 这 个 例子 认识 到 : 一 个 字符 组， 
即使 是 排险 型 字符 姐 ， 也 需要 匹配 一 个 字符 。 





在 '03.19.76, 中 ， 点 号 是 元 字符 一 一 它 能 够 匹配 任意 字符 (包括 我 们 期 望 的 连 字符 、 句 号 
和 和 斜 线 )。 不 过 ， 我 们 也 需要 明白 ， 点 号 可 以 匹配 任何 字符 ， 所 以 这 个 正则 表达 式 也 能 够 匹 
配 下 面 的 字符 串 :; ‘lottery numbers: 19 203319 7639’ 





所 以 ，03[-./119[-./176) 更 加 精确 , 但 是 更 难 读 , 也 更 难 写 。03 .19.76, 更 容易 理解 , 但 
是 不 够 细致 。 我 们 应 该 选择 哪 一 个 呢 ? 这 取决 于 你 对 需要 检索 的 文本 的 了 解 ， 以 及 你 需要 
达到 的 准确 程度 。 一 个 重要 但 常见 的 问题 是 ， 写 正则 表达 式 时 ， 我 们 需要 在 对 欲 检索 文本 
的 了 解 程度 与 检索 精确 性 之 间 求 得 平衡 。 例 如 ， 如 果 我 们 知道 ， 针 对 某 个 检索 文本 ， 
'03 .19.76) 这 个 正则 表达 式 基本 不 可 能 匹配 不 期 望 的 结果 ， 使 用 它 就 是 合理 的 。 要 想 正确 
使 用 正则 表达 式 ， 清 楚 地 了 解 目标 文本 是 非常 重要 的 。 


注 4: 在 我 四 年 级 的 时 候 ， 曾 经 带 队 参加 拼 字 比赛 (spelling bee) ， 题 目 是 拼写 “miss”。 我 的 答 
案 是 “mirs"s ， 但 史密斯 小 姐 含 闭 地 告诉 我 说 ， 应 该 是 “Mi's"S"， 弟 一 个 字母 要 大 写 ， 
我 应 该 找 老师 要 一 个 例句 ， 于 是 我 出 局 了 。 作 为 一 个 小 孩子 ， 那 时 候 我 感觉 非常 受伤 。 从 
此 以 后 ， 我 开始 讨厌 史密斯 小 姐 ， 拼 写 也 学 得 非常 粳 械 。 


if 
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多 选 结 构 


Alternation 


匹配 任意 子 表达 式 


山 是 一 个 非常 简捷 的 元 字符 ， 它 的 意思 是 “或 ”(or)。 依 靠 它 ， 我 们 能 够 把 不 同 的 子 表达 
式 组 合成 一 个 总 的 表达 式 ， 而 这 个 总 的 表达 式 又 能 够 匹配 任意 的 子 表达 式 。 假 如 'aob, 和 
Robert! 是 两 个 表达 式 ， 但 Bob1Robert 就 是 能 够 同时 匹配 其 中 任意 一 个 的 正则 表达 式 。 
在 这 样 的 组 合 中 ， 子 表达 式 称 为 “多 选 分 支 (alternative)”。 


回头 来 看 'gr [ealy 的 例子 有 意思 的 是 , 它 还 可 以 写作 'grey 1gray, 或 者 是 'gr (ale)yj。 
后 者 用 括号 来 划 定 多 选 结构 的 范围 (正常 情况 下 ， 括 号 也 是 元 字符 )。 请 注意 , 'gr [alely， 
不 符合 我 们 的 要 求 一 一 在 这 里 ，“ 1” 只 是 一 个 和 'a 与 '@, 一 样 的 普通 字符 。 


对 表达 式 gr (aloy Kik, 括号 是 必须 的 , 因为 如 果 没 有 括号 , rgraley, 的 意思 就 成 了 “gral 
或 者 ey”, 而 这 不 符合 我 们 的 要 求 。 多 选 结构 可 以 包括 很 多 字符 , 但 不 能 超越 括号 的 界限 。 
另 一 个 例子 是 '(First|lst):[sSs]jtreet, ( 注 5), Bb, AX Firsts Fist, FBLA ‘sty 
结尾 , 我 们 可 以 把 这 个 结合 体 缩 略 表示 为 "(Fir1l)st*[ss]jtreeti。 这 样 可 能 不 容易 看 得 清 
楚 ， 但 我 们 知道 (First1lst)) 与 (firll)st 表 示 的 是 同一 个 意思 。 


下 面 是 一 些 用 多 选 结构 来 拼写 我 名 字 的 例子 。 这 3 个 表达 式 是 一 样 的 ， 请 仔细 比较 : 


‘Jeffrey |Jeffery, 
‘Jeff (reylery); 
Jeff (reler)y; 


英国 拼写 法 如 下 : 


(Geoff {Jeff) (reylery) 
‘(GeolJe)ff (rey lery)j 
‘(Geol Je) ff (reler)y; 


最 后 要 注意 的 是 ， 这 3 个 表达 式 其 实 与 下 面 这 个 更 长 〈 但 是 更 简单 ) 的 表达 式 是 等 价 的 ， 
‘Jeffrey|Geoffery|1Jeffery|Geoffrey;。 它 们 只 是 “殊途同归 ”而 已 。 


gr[ealy! 与 gr tale)y! 的 例子 可 能 会 让 人 觉得 多 选 结构 与 字符 组 没 太 大 的 区 别 , 但 是 请 留 
神 不 要 混 靖 这 两 个 概念 。 一 个 字符 组 只 能 匹配 目标 文本 中 的 单个 字符 ， 而 每 个 多 选 结构 自 
身 都 可 能 是 完整 的 正则 表达 式 ， 都 可 以 匹配 任意 长 度 的 文本 。 


注 5: 请 参考 第 VI 页 的 体例 说 明 ， 这 里 的 “'” 表 示 空 格 ， 这 样 更 容易 识别 。 
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字符 组 基本 可 以 算是 一 门 独立 的 微型 语言 (例如 ， 对 于 元 字符 ， 它 们 有 自己 的 规定 ) ， 而 多 
选 结构 是 “正则 表达 式 语言 主体 (main regular expression language)” 的 一 部 分 。 你 将 会 发 
现 ， 这 两 者 都 非常 有 用 。 


同样 ， 在 一 个 包含 多 选 结构 的 表达 式 中 使 用 脱 字符 和 美元 符 的 时 候 也 要 小 心 。 比 较 
'aFrom|Subject |Date: #il'*(From|Subject IDate): RERA, 虽然 它们 看 起 来 与 之 前 
的 E-mail 的 例子 很 相似 ， 匹 配 结果 (〈 即 它们 的 用 处 ) 却 大 不 相同 。 第 一 个 表达 式 由 3 个 多 
选 分 支 构成 , 所 以 它 能 匹配 “From MH ‘subjects RF 'Date:+, 实用 性 不 大 。 我 们 希望 在 
每 一 个 多 选 分 支 之 前 都 有 脱 字符 ， 之 后 都 有 ':.。 所 以 应 该 使 用 括号 来 “限制 ” (constrain ) 
这 些 多 选 分 支 ， 


fa (Froml Subject |Date) :* 


现在 3 个 多 选 分 支 都 受 括号 的 限制 ， 所 以 ， 这 个 正则 表达 式 的 意思 是 : 匹配 一 行 的 起 始 位 
置 ， 然 后 匹配 “Fromj、subject) 或 pacei 中 的 任意 一 个 ， 然 后 匹配 :…， 所 以 ， 它 能 够 匹 
配 的 文本 是 : 


1) 行 起 始 ， 然后 是 F*r*om, 然后 是 rae 
或 者 2) 行 起 始 ， 然 后 是 s*u*b*j*e*c*t ， 然 后 是 “:*…， 
或 者 3) Ék, MEE Date, BEE 


简单 点 说 , WELA ‘From:*', ‘Subject: 或 者 ‘Date: 开头 的 文本 行 , 在 提取 E-mail 
文件 中 的 信息 时 这 很 有 用 。 


下 面 是 一 个 例子 : 


% egrep ‘'*(From|Subject|Date): ' mailbox 
From: elvis@tabloid.org (The King) 
Subject: be seein' ya around 

Date: Mon, 23 Oct 2006 11:04:13 

From: The Prez <president@whitehouse.gov> 
Date: Wed, 25 Oct 2006 8:36:24 

Subject: now, about your vote... 


忽略 大 小 写 


Ignoring Differences in Capitalization 


E-mail header 的 例子 很 适合 用 来 说 明 不 区 分 大 小 写 (case-insensitive) 的 匹配 的 概念 。 E-mail 
header 中 的 字段 类 型 (field type) 通常 是 以 大 写字 母 开 头 的 ， 例 如 “Subject 和 “From ， 
但 是 E-mail 标准 并 没有 对 大 小 写 进行 严格 的 规定 ， 所 以 “DATE ”或 者 “from ”也 是 合法 的 
字段 类 型 。 但 是 ， 之 前 使 用 的 正则 表达 式 无 法 处 理 这 种 情况 。 


一 种 办 法 是 用 “[Ff] (Rr) [oo] [Mm] ,取代 'From, 这 样 就 能 匹配 任何 形式 的 “from”, 但 缺点 
之 一 就 是 很 不 方便 。 幸 好 ， 我 们 有 一 种 办 法 告诉 egrep 在 比较 时 忽略 大 小 写 ,， 也 就 是 进行 不 
区 分 大 小 写 的 匹配 ， 这 样 就 能 忽略 大 小 写字 母 的 差异 。 
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该 功能 并 不 是 正则 表达 式 语言 的 一 部 分 ， 却 是 许多 工具 软件 提供 的 有 用 的 相关 特性 。egrep 
的 命令 行 参数 “-i” 表 示 进 行 忽略 大 小 写 的 匹配 。 把 -i 写 在 正则 表达 式 之 前 : 


% egrep -i '^(From!Subject|Date): ' mailbox 


结果 除了 包括 之 前 的 内 容 外 ， 还 包含 这 一 行 : 


SUBJECT: MAKE MONEY FAST 


我 使 用 -i 参数 的 频率 很 高 (也许 与 第 12 页 的 注解 有 关 ) ， 所 以 我 推荐 读者 记 住 它 。 在 下 面 
的 章节 中 我 们 还 会 见 到 其 他 的 简捷 特性 。 


单词 分 界 符 


Word Boundaries 


使 用 正则 表达 式 时 经 常会 遇 到 的 一 个 问题 ， 期 望 匹 配 的 “单词 ”包含 在 另 一 个 单词 之 中 。 
在 cat, gray 和 smith 的 例子 中 ， 我 曾 提 到 过 这 个 问题 。 不 过 ， 某 些 版 本 的 egrep 对 单词 
识别 提供 了 有 限 的 支持 : 也 就 是 单词 分 界 符 (单词 开头 和 结束 的 位 置 ) 的 匹配 。 


如 果 你 的 egrep 支持 “元 字符 序列 (metasequences)” < 和 仆 >,， 就 可 以 使 用 它们 来 匹配 
单词 分 界 的 位 置 。 可 以 把 它们 想象 为 单词 版 本 的 和 S, 分别 用 来 匹配 单词 的 开头 和 结束 
位 置 。 就 像 作为 行销 点 的 赔 字符 和 美元 符 一 样 ， 它 们 锁定 了 正则 表达 式 的 其 他 部 分 ， 但 在 
匹配 过 程 中 并 不 对 应 到 任何 字符 。 表 达 式 八 <cat\>, 的 意思 是 “匹配 单词 的 开头 位 置 ， 然后 
是 cra't 这 3 个 字母 ， 然 后 是 单词 的 结束 位 置 *。 更 直接 点 说 就 是 “匹配 cat 这 个 单词 "。 如 
果 读 者 原意 ， 也 可 以 用 <cat!, 和 'cat\>j 来 匹配 以 cat 开头 和 结束 的 单词 。 


请 注意 ，<, 和 > 本 身 并 不 是 元 字符 一 一 只 有 当 它 们 与 斜 线 结合 起 来 的 时 候 ， 整 个 序列 才 具 
有 特殊 意义 。 这 就 是 我 称 其 为 “元 字符 序列 ”的 原因 。 重 要 的 是 它们 的 特殊 意义 ， 而 不 是 
字符 的 个 数 ， 所 以 我 说 的 “元 字符 ”和 “元 (字符 ) 序列 ”大 多 数 时 候 是 等 价 的 。 


请 记 住 ， 并 不 是 所 有 版 本 的 egrep 都 支持 单词 分 界 符 ， 即 使 是 支持 的 版 本 也 不 见得 聪明 到 
能 “认得 出 ”英语 单词 。“ 单 词 的 起 始 位 置 ”只 不 过 是 一 系列 字母 和 数字 符号 (alphanumeric 
characters) 开始 的 位 置 ， 而 “结束 位 置 ”就 是 它们 结尾 的 地 方 。 下 一 页 的 图 1-2 说 明了 一 行 
简单 文本 中 的 单词 分 界 符 。 


(egrep 认定 的 ) 单词 开头 位 置 用 向 上 的 箭头 标识 ， 单 词 结束 位 置 用 向 下 的 箭头 标识 。 我 们 
看 到 ,“ 单 词 的 开始 和 结束 ”准确 地 说 是 “字母 数字 符号 的 开始 和 结束 "， 不 过 这 样 说 太 麻 
HT. 
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— ee PD I P 


That gang- tootin’ #2 1%* Yarmint’s post pe $199.95: 


* \< 能 够 匹配 的 位 置 | `\> 能 够 匹配 的 位 轩 单词 





图 1-2:“ 单 词 ”的 起 始 和 结束 位 置 
小 结 


Ina Nutshell 
表 1-1 总 结 了 我 们 已 经 介绍 过 的 元 字符 。 


表 1-1: 至 今 为 止 所 见 的 元 字符 小 结 


heal 






点 号 单个 任意 字符 
要 字符 组 列 出 的 任意 字符 
排除 型 字符 组 未 列 出 的 任意 字符 


行 的 起 始 位 置 












$ 美元 符 行 的 结束 位 置 

\< KA A-D F 单词 的 起 始 位 置 ( 某 些 版 本 的 egrep 可 能 不 支持 ) 

\> A R-KF 单词 的 结束 位 置 ( 某 些 版 本 的 egrep 可 能 不 支持 ) 

| EA VE He 5p fh HD EERE 

(+++) 括号 限制 坚 线 的 作用 范围 ， 其 他 功能 下 文 讨 论 
另外 还 有 几 点 需要 注意 : 


。 ”在 字符 组 内 部 ， 元 字符 的 定义 规则 (及 它们 的 意义 ) 是 不 一 样 的 。 例 如 ， 在 字符 组 外 
部 ， 点 号 是 元 字符 ， 但 是 在 内 部 则 不 是 如 此 。 相 反 ， 连 字符 只 有 在 字符 组 内 部 (这 是 
普遍 情况 ) 才 是 元 字符 ， 否 则 就 不 是 。 脱 字符 在 字符 组 外 部 表示 一 个 意思 ， 在 字符 组 
内 部 紧 接 着 [ 时 表示 另 一 个 意思 ， 其 他 情况 下 又 表示 别 的 意思 。 


。 ”不 要 混 请 多 选项 和 字符 组 。 字 符 组 '[abc], 和 多 选项 '(alblc), 固然 表示 同一 个 意思 ， 
但 是 这 个 例子 中 的 相似 性 并 不 能 推广 开 来 。 无 论 列 出 的 字符 有 多 少 ， 字 符 组 只 能 匹配 
一 个 字符 。 相 反 ， 多 选项 可 以 匹配 任意 长 度 的 文本 ， 每 个 多 选项 可 能 匹配 的 文本 都 是 
独立 的 , 例如 人 <(1,000,000Imillion1lthousand*thou)\>ij。 不 过 ， 多 选项 设 有 像 字 
符 组 那样 的 排除 功能 。 
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"。 ”排除 型 字符 组 是 表示 所 有 未 列 出 字符 的 字符 组 的 简便 方法 。 因 此 ，[^x], 的 意思 并 不 
是 “只 有 当 这 个 位 置 不 是 x 时 才能 匹配 ”， 而 是 说 “匹配 一 个 不 等 于 x 的 字符 "。 其 中 
的 差别 很 细微 ， 但 很 重要 。 例 如 ， 前 面 的 概念 可 以 匹配 一 个 空 行 ， 而 【^x], 则 不 行 。 


。 -i 参数 规定 在 匹配 时 不 区 分 大 小 写 (715) ( 注 6)。 


。 目前 介绍 过 的 知识 都 很 有 用 ， 但 “可 选项 (optional)” 和 “计数 (counting )” 元 素 更 
重要 ， 下 文 将 马上 介绍 。 


可 选项 元 素 
Optional Items 
现在 来 看 color 和 colour 的 匹配 。 它 们 的 区 别 在 于 ， 后 面 的 单词 比 前 面 的 多 一 个 u， 我 们 


可 以 用 colou?ri 来 解决 这 个 问题 。 元 字符 “? ，( 也 就 是 问号 ) 代表 可 选项 。 把 它 加 在 一 个 
字符 的 后 面 ， 就 表示 此 处 容许 出 现 这 个 字符 ， 不 过 它 的 出 现 并 非 匹 配 成 功 的 必要 条 件 。 


u?1 这 个 元 字符 与 我 们 之 前 看 到 的 元 字符 都 不 相同 ， 它 只 作用 于 之 前 紧邻 的 元 素 。 因 此 ， 
'colou?r! 的 意思 是 ; "rcj， 然 后 是 "oj， 然 后 是 L, Rano, Rau, Aai 


u2 是 必然 能 够 匹配 成 功 的, 有 时 它 会 匹配 一 个 u, 其 他 时 候 则 不 匹配 任何 字符 。 关键 在 于 ， 
ER u 是 否 出 现 ， 匹 配 都 是 成 功 的 。 但 这 并 不 等 于 ， 任 何 包含 ? 的 正则 表达 式 都 永远 能 匹 
配 成 功 。 例 如 ,rcolo 和 ?都 能 在 “semicolion” 中 匹配 成 功 (前 者 匹配 单词 中 的 colo, 
后 者 什么 字符 都 没有 匹配 ) 。 可 是 最 后 的 z, 无 法 匹配 ， 因 此 ， 最 终 'colou?r 无 法 匹配 


Semicolon。 


来 看 另 一 个 例子 , 我 们 需要 匹配 表示 7 月 4 日 (July fourth) 的 文本 , 其 中 月 份 可 能 写作 July 
或 是 Jul， 而 日 期 可 能 写作 fourth, 4th 或 者 是 4。 显 然 ， 我 们 可 以 使 用 '(oulyloul)， 
(fourthl4th14)1;， 但 也 可 以 找 些 其 他 的 办 法 来 解决 这 个 问题 。 


首先 ， 我 们 把 “(July1Ju1) ,缩短 为 ‘(July?),;。 你 明白 这 种 等 价 变 换 吗 ?删除 1, 之后， 就 
没 必 要 保留 括号 了 。 当 然 保留 也 可 以 ， 但 不 保留 括号 显得 更 整洁 一 些 。 于 是 我 们 得 到 


‘July? (fourthl4thl4))。 


注 6: 按照 第 V 页 的 体例 说 明 ， 字 15 代表 参照 本 书 第 IS 页 的 内 容 。 
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现在 来 看 第 二 部 分 , 我 们 可 以 把 "4ch14; 简 化 为 “4(ch) ?。 我 们 看 到 , 现在 '?, 作 用 的 元 素 是 
整个 括号 了 。 括 号 内 的 表达 式 可 以 任意 复杂 , 但 是 “从 括号 外 来 看 ”它们 是 个 整体 。 界定 ?， 
的 作用 对 象 (还 可 以 划 定 我 即将 介绍 的 其 他 类 似 元 字符 的 作用 对 象 ) 是 括号 的 主要 用 途 之 


— 


我 们 的 表达 式 现在 成 了 uly?'(fourth14(th) ?)i。 尽 管 它 包 含 了 许多 元 字符 , MAAKE 
的 括号 ， 但 理解 起 来 并 不 困难 。 我 们 花 了 相当 的 工夫 来 讲解 这 两 个 简单 的 例子 ， 但 同时 也 
接触 到 了 一 些 相关 的 知识 ,它们 相当 有 助 于 一 一 或 许 你 现在 还 意识 不 到 一 我 们 理解 正则 表 
AK. AFE, 通过 这 些 讲解 ,我 们 也 积累 了 依靠 不 同 思路 解决 问题 的 经 验 。 在 阅读 本 书 ( 同 
时 也 是 在 加 深 理 解 ) 寻找 复杂 问题 的 最 优 解决 方案 的 过 程 中 ， 你 可 能 会 发 现 灵感 可 能 在 不 
断 涌现 。 正 则 表达 式 不 是 死板 的 教条 ，、 它 更 像 是 门 艺 术 。 





其 他 量词 : 重复 出 现 


Other Quantifiers: Repetition 


a (加 号 ) Aa (BS) 的 作用 与 问号 类 似 。 元 字符 + 表示 “之 前 紧邻 的 元 素 出 现 一 次 或 
多 次 ”， 而 *, 表 示 “ 之 前 紧邻 的 元 素 出 现任 意 多 次 ， 或 者 不 出 现 ”"。 换 种 说 法 就 是 ，…*, 表 
示 “ 匹 配 尽 可 能 多 的 次 数 ， 如 果实 在 无 法 匹配 ， 也 不 要 紧 ”。"…+ 的 意思 与 之 类 似 ， 也 是 匹 
配 尽 可 能 多 的 次 数 ， 但 如 果 连 一 次 匹配 都 无 法 完成 ， 就 报告 失败 。 问 号 、 加 号 和 星 号 这 3 
个 元 字符 ， 统 称 为 量词 (quantifiers) ， 因 为 它们 限定 了 所 作用 元 素 的 匹配 次 数 。 


与 …?, 一 样 , 正则 表达 式 中 的 … 思 也 是 永远 不 会 匹配 失败 的 , 区别 只 在 于 它们 的 匹配 结果 。 
而 …++ 在 无 法 进行 任何 一 次 匹配 时 ， 会 报告 匹配 失败 。 


举例 来 说 ,…? 能 够 匹配 一 个 可 能 出 现 的 空格 ， 但 是 “能够 匹配 任意 多 个 空格 。 我 们 可 以 
用 这 些 量词 来 简化 第 9 页 <H[1-6]> 的 例子 。 按 照 HTML 规范 ( 注 7)， 在 tag 结尾 的 > 字符 
之 前 ， 可 以 出 现任 意 长 度 的 空格 ， 例 如 <H3'> 或 者 <H4…>。 把 “…* 加 入 正则 表达 式 中 的 可 能 
出 现 (但 不 是 必须 ) 空格 的 位 置 ， 就 得 到 'H{1-6]**。 它 仍然 能 够 匹配 <H1>， 因 为 空格 并 不 
是 必须 出 现 的 ， 但 其 他 形式 的 tag 也 能 匹配 。 


注 7: FPRKARA HTML 规范 也 不 必 担 心 。 我 把 它们 当 作 实 际 的 例子 ,但 是 我 会 提供 理解 其 中 
HELEH h, AA HTML tag 解析 的 人 可 能 会 认识 到 我 未 在 本 书 中 提 及 的 重要 意义 。 
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接 下 来 看 类 似 <HR*SIZE=14> 这 样 的 HTML tag， 它 表示 一 条 高 度 为 14 像素 的 穿越 屏幕 的 水 
平 线 。 与 <83> 的 例子 一 样 ， 在 最 后 的 尖 括 号 之 前 可 以 出 现任 意 多 个 空格 。 此 外 ， 在 等 号 两 
边 也 容许 出 现任 意 多 个 空格 。 最 后 ， 在 HR 和 size 之 间 必 须 有 至 少 一 个 空格 。 为 了 处 理 更 
多 的 空格 ， 我 们 可 以 在 … 后 添加 “…*,， 不 过 最 好 还 是 改写 为 +。 加 号 确保 至 少 有 一 个 空格 
HR, 所 以 它 与 …*1 是 完全 等 价 的 ， 只 不 过 更 简洁 。 所 以 我 们 得 到 '<HR*+SIZE**="*14.*>1。 


尽管 这 个 表达 式 不 受 空格 数目 的 限制 , 但 它 仍然 受 tag 中 直线 尺寸 大 小 的 约束 。 我 们 要 找 的 
不 仅仅 是 高 度 为 14 的 tag， 而 是 所 有 这 些 tag。 所 以 ， 我 们 必须 用 能 匹配 普通 数值 (general 
number) 的 表达 式 来 替换 14,。 在 这 里 ,，“ 数 值 ”(number) 是 由 一 位 或 多 位 数字 (digits) 
构成 的 。[0-9], 可 以 匹配 一 个 数字 ， 因 为 “至 少 出 现 一 次 "， 所 以 我 们 使 用 加 号 量词 ， 结 果 
就 是 用 (0-9) +, BR 14j。( 一 个 字符 组 是 一 个 “元 素 ”(unit) ， 所 以 它 可 以 直接 加 加 号 、 星 
号 等 ， 而 不 需要 用 括号 。) 


这 样 我 们 就 得 到 了 '<HR*+SIZE**=** [0-9]+**>;， 尽 管 我 用 了 粗 体 标识 元 字符 ， 用 空格 来 分 

Bae ICH, 而 且 使 用 了 “看 得 见 的 空格 符 ”“…，, 这 个 表达 式 仍然 不 容易 看 懂 (幸好 ,egrep 

提供 了 -i 的 参数 了 15, 这 样 我 就 不 需要 用 '[Hh] [Rr] ERAR HR T), BM, ‘<HR +SIZE *= 
*[0-9]+ *>/ 更 令 人 迷惑 。 这 个 表达 式 之 所 以 看 起 来 有 些 诡异 ， 是 因为 星 号 和 加 号 作用 的 对 

象 大 都 是 空格 ， 而 人 眼 习 惯 于 把 空格 和 普通 字符 区 分 开 来 。 在 阅读 正则 表达 式 时 ， 我 们 必 

须 改变 这 种 习惯 ， 因 为 空格 符 也 是 普通 字符 之 一 ， 它 与 j 或 者 4 这 样 的 字符 没有 任何 差别 
(在 后 面 的 章节 中 ， 我 们 会 看 到 ， 某 些 工 具 软 件 支持 忽略 空格 的 特殊 模式 )。 


我 们 继续 这 个 例子 ， 如 果 尺 寸 这 个 属性 也 是 可 选 的 ， 也 就 是 说 <HR> 就 代表 默认 高 度 的 直 
线 (同样 ,在 > 之 前 也 可 能 出 现 空格 ) 。 你 能 修改 我 们 的 正则 表达 式 ， 让 它 匹 配 这 两 种 类 型 
的 tag 吗 ? 解决 问题 的 关键 在 于 明白 表示 尺寸 的 文本 是 可 选 出 现 的 (这 是 个 暗示 )。 信 请 翻 
到 下 一 页 查看 答案 。 


请 仔细 观察 最 后 (答案 中 ) 的 表达 式 ， 体 会 问号 、 星 号 和 加 号 之 间 的 差异 ， 以 及 它们 在 实 
际 应 用 中 的 真正 作用 。 下 一 页 的 表 1-2 总 结 了 它们 的 意义 。 


请 注意 ， 每 个 量词 都 规定 了 匹配 成 功 至 少 需要 的 次 数 下 限 ， 以 及 尝试 匹配 的 次 数 上 限 。 对 
某 些 量词 来 说 ， 下 限 是 0， 对 某 些 量词 来 说 ， 上 限 是 无 穷 大 。 
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把 一 个 子 表 达 式 变 为 可 选项 


+ 19 页 问题 的 答案 

在 本 例 中 ,“ 可 选 出 现 ”(optional) 的 意思 是 可 以 但 并 不 必须 匹配 一 次 。 这 需要 使 用 ? |。 
因为 可 选项 多 于 一 个 字符 ， 所 以 我 们 必须 使 用 括号 : O)? CMAARBKAP, HR 
得 到 '<HR (++SIZE**="* [0-9] +) 2"*>| 

请 注意 , 结尾 的 "xj 在 (…)31 以 外 。 这 样 就 能 应 付 '<HR.>! 之 类 的 情况 。 如 果 我 们 把 它 
包含 在 括号 内 ， 则 只 有 在 出 现 “SIZE=…” 这 段 文本 的 情况 下 才 容 许 在 > 之 前 出 现 空格 。 
同样 请 注意 SIZE 之 前 的 "+) 包含 在 括号 内 。 如 果 把 它 拿 到 括号 之 外 , HR 之 后 就 必须 紧 
跟 至 少 一 个 空格 ， 即 使 SIZE 没有 出 现 也 是 如 此 。 这 样 “<HR>” 就 无 法 匹配 了 。 





表 1-2:“ 表 示 重 复 的 元 字符 ”含义 小 结 


? —— TAREA, ET ARERR (PETE) 
* [et | 无 | 可 以 出 现 无 数 次 ， 也 可 以 不 出 现 (任意 次 数 均 可 ) 
+ |i — |æ | 可 以 出 现 无 数 次 ,但 至 少 要 出 现 一 次 ( 重 少 一 次 ) 


规定 重 现 次 数 的 范围 ， 区 间 





某 些 版 本 的 egrep 能 够 使 用 元 字符 序列 来 自 定 义 重 现 次 数 的 区 间 :…{min, max}. PRE 
间 量 词 (interval quantifier)”, (ian, …{3,12), 能 够 容许 的 重 现 次 数 在 3 到 12 之 间 。 有 人 
可 能 会 用 '[a-zA-z] {1,5}, 来 匹配 美国 的 股票 代码 (1 到 5 个 字母 ) 。 问 号 对 应 的 区 间 量 词 
是 {0,1}。 


支持 区 间 表 示 法 的 egrep 的 版 本 并 不 多 , 但 有 许多 另外 的 工具 支持 它 。 在 第 3 章 我 们 会 仔细 
考察 目前 经 常 使 用 的 元 字符 ， 那 时 候 会 涉及 区 间 的 支持 问题 。 


括号 及 反问 引用 


Parentheses and Backreferences 


到 目前 为 止 ， 我 们 已 经 见 过 括号 的 两 种 用 途 : 限制 多 选项 的 范围 ， 将 若干 字符 组 合 为 一 个 
单元 , 受 问 号 或 星 号 之 类 量词 的 作用 。 现 在 我 要 介绍 括号 的 另 一 种 用 途 ， 虽然 它 在 egrep 中 
并 不 常见 (不 过 流行 的 GNU 版 本 确实 支持 这 一 功能 )， 但 在 其 他 工具 软件 中 很 常见 。 
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在 许多 流派 (flavor) 的 正则 表达 式 中 ,括号 能 够 “ 记 住 ”它们 包含 的 子 表达 式 匹 配 的 文本 。 
在 解决 本 章 开始 提 到 的 单词 重复 问题 时 就 会 用 到 这 个 功能 。 如 果 我 们 确切 知道 重复 单词 的 
第 一 个 单词 (比方 说 这 个 单词 就 是 “the") ， 就 能 够 明确 无 误 地 找到 它 ， 例 如 che'chei。 这 
样 或 许 还 是 会 匹配 到 the-theory 的 情况 ,但 如 果 我 们 的 egrep 支持 在 第 15 页 提 到 的 单词 分 
REF \<che-the\>:, 这 个 问题 就 很 容易 解决 。 我 们 可 以 添加 +: 把 这 个 表达 式 变 得 更 灵 话 。 


然而 ， 穷 举 所 有 可 能 出 现 的 重复 单词 显然 是 不 可 能 完成 的 任务 。 如 果 我 们 先 匹配 任意 一 个 
单词 ， 接 下 来 检查 “后 面 的 单词 是 否 与 它 一 样 "， 就 好 办 多 了 。 如 果 你 的 egrep 支持 “ 反 向 
引用 (backreference)”， 就 可 以 这 么 做 。 反 向 引用 是 正则 表达 式 的 特性 之 一 ， 它 容许 我 们 匹 
配 与 表达 式 先前 部 分 匹配 的 同样 的 文本 。 


我 们 先 把 '\<the*+the\>, 中 的 第 一 个 'thej 替换 为 能 够 匹配 任意 单词 的 正则 表达 式 
‘(A-Za-z)+) 然后 在 两 端 加 上 括号 (原因 见 下 段 )， 最 后 把 后 一 个 “the” 震 换 为 特殊 的 元 
字符 序列 \1/， 就 得 到 了 "\<([A-2Za-z]+)*+\1\>1。 


在 支持 反 向 引用 的 工具 软件 中 ， 括 号 能 够 “记忆 ”其 中 的 子 表达 式 匹配 的 文本 ， 不 论 这 些 
文本 是 什么 ， 元 字符 序列 1 都 能 记 住 它们 。 


当然 ， 在 一 个 表达 式 中 我 们 可 以 使 用 多 个 括号 。 再 用 疏 1,. 人 2,、 仆 3, 等 来 表示 第 一、 第 二 、 
第 三 组 括号 匹配 的 文本 。 括 号 是 按照 开 括 号 “(” 从 左 至 右 的 出 现 顺 序 进行 的 ， 所 以 
(fa-z])([0-9])N1\2 中 的 人 1 代表 “0a-z] 匹 配 的 内 容 , 而 仆 2, 代 表 ' [0-9] 匹 配 的 内 容 。 


在 “the*the' 的 例子 中 ，[aA-2a-z]+1 匹 配 第 一 个 “the'。 因 为 这 个 子 表达 式 在 括号 中 , 所 
以 1; 代表 的 文本 就 是 “the’ 。 如 果 “+ 能够 匹配 ， 后 面 的 人 1 要 匹配 的 文本 就 是 “che '。 
如 果 '\ 1 也 能 成 功 匹配 , 最 后 的 八 >, 对 应 单词 的 结尾 (如 果 文 本 是 “the'theft', 这 一 条 就 
不 满足 )。 如 果 整 个 表达 式 能 匹配 成 功 ， 我 们 就 得 到 一 个 重复 单词 。 有 的 重复 单词 并 不 是 错 
误 ， 例 如 “that that’ (译注 3)， 这 并 不 是 正则 表达 式 的 错误 ， 真 正 的 判断 还 得 靠 人 。 


我 决定 使 用 上 面 这 个 例子 的 时 候 ， 已 经 用 这 个 表达 式 检查 过 本 书 之 前 的 内 容 了 (我 使 用 的 
是 支持 <…\>! 和 反 向 引用 的 egrep)。 我 还 使 用 了 第 15 页 提 到 的 忽略 大 小 写 的 参数 -i 来 拓 
宽 它 的 适用 范围 ( 注 8)， 所 以 “The*the” 这 样 的 单词 重复 也 能 提取 出 来 。 


译注 3: 在 英文 中 有 可 能 出 现 两 个 连续 的 that, 例如 And we think that that standard has been met 
here。 其 中 第 一 个 that 表示 宾语 从 名 的 引导 词 ， 第 二 个 用 于 修饰 standards, 


£8: 某 些 版 本 的 egrep， 包 括 一 些 流行 的 GNU 版 本 的 egrep 在 内 ， 它 们 的 -i 参数 都 存在 一 个 
bug， 即 不 会 对 反 向 引用 的 内 容 忽 略 大 小 写 ， 也 就 是 说 ， 它 可 以 找到 “the the”， 但 找 不 到 
“The the”, 
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我 使 用 的 命令 如 下 : 
% egrep -i '\<([a-z}]+) +#\1\>' files... 


结果 令 我 惊奇 ， 居 然 找 到 了 14 组 重复 单词 。 我 把 它们 全 都 改正 了 ， 而 且 把 这 个 表达 式 添 加 
到 我 用 来 检查 本 书 拼写 错误 的 工具 中 ， 保 证 从 此 以 后 全 书 中 不 会 出 现 这 样 的 错误 。 


尽管 这 个 表达 式 很 有 用 ,我 们 仍然 需要 重视 它 的 局 限 。 因 为 egrep 把 每 行文 字 都 当 作 - -个 独 
立 部 分 米 看 待 ， 所 以 如 果 单 词 重复 的 第 一 个 单词 在 某 行 末尾 ， 第 二 个 单词 在 下 一 行 的 开头 ， 
这 个 表达 式 就 无 法 找到 。 所 以 ， 我 们 需要 更 加 灵活 的 工具 ， 下 一 章 我 们 会 看 到 这 方面 的 例 
子 。 


神奇 的 转 义 


Fhe Creat f sape 


有 个 重要 的 问题 我 尚未 提 及 ， 即 ， 如 果 需 要 匹配 的 某 个 字符 本 身 就 是 元 字符 ， 正 则 表达 式 
会 如 何 处 理 呢 ? 例如 , 如 果 我 想 要 检索 互联 网 的 主机 名 ega.att .com, 使 用 ‘ega.att .com 
可 能 得 到 megawatt*com puting 的 结果 。 还 记得 吗 ?“. | 本身 就 是 元 字符 , 它 可 以 匹配 任何 
字符 ， 包 括 空格 。 


真正 匹配 文本 中 点 号 的 元 序列 应 该 是 反 斜 线 (backslash) 加 上 点 号 的 组 合 ; ega\ .att\ .com 
4 称 为 “ 转 义 的 点 号 ”或 者 “ 转 义 的 名 号 "， 这 样 的 办 法 适用 于 所 有 的 元 字符 ,不 过 在 字 
符 组 内 部 无 效 ( 注 9)。 


这 样 使 用 的 反 斜 线 称 为 “ 转 义 符 《escape) ”一 一 它 作 用 的 元 字符 会 失去 特殊 含义 ， 成 了 普 
通 字符 。 如 果 你 愿意 ， 也 可 以 把 转 义 符 和 它 之 后 的 元 字符 看 作 特 殊 的 元 字符 序列 ， 这 个 元 
字符 序列 匹配 的 是 元 字符 对 应 的 普通 字符 。 这 两 种 看 法 是 等 价 的 。 


我 们 还 可 以 用 \( [a-zA-Zz]+\) 1 来 匹配 一 个 括号 内 的 单词 , 例如 “(very) '。 在 开 闭 括 号 之 
前 的 反 斜 线 消除 了 开 闭 括号 的 特殊 意义 ， 于 是 他 们 能 够 匹配 文本 中 的 开 闭 括 号 。 





如 果 反 斜 线 后 紧 跟 的 不 是 元 字符 ， 反 斜 线 的 意义 就 依 程 序 的 版 本 而 定 。 例 如 ， 我 们 已 经 知 
道 ， 某 些 版 本 的 程序 把 <!、\>;、\11 当 作 元 字符 序列 对 待 。 在 后 面 的 章节 中 我 们 会 看 到 更 
多 的 例子 。 


注 9: 大 多 数 程序 设计 语言 和 工具 都 支持 字符 组 内 部 的 转 义 ， 但 是 大 多 数 版 本 的 egrep 不 支持 ， 
它们 会 把 反 针线 “\” 当 作 字符 组 内 部 列 出 的 普通 字符 。 
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基础 知识 拓展 


Expanding the Foundatioii 


我 希望 ， 前 面 的 例子 和 解释 已 经 帮助 读者 牢固 地 打下 了 正则 表达 式 的 基础 ， 也 请 读者 明白 ， 
这 些 例子 都 很 浅显 ， 我 们 需要 掌握 的 还 有 很 多 。 


语言 的 差异 


Linguishe Diversification 


我 已 经 介绍 过 大 多 数 版 本 的 egrep 支持 的 正则 表达 式 的 特性 ,这样 的 特性 还 有 很 多 , 其 中 一 
些 并 不 是 所 有 的 版 本 都 支持 ， 这 个 问题 留 到 后 面 的 章节 讲解 。 


任何 语言 中 都 存在 不 同 的 方言 和 口音 ， 很 不 幸 ， 正 则 表达 式 也 一 样 。 情 况 似 乎 是 ， 每 一 种 
支持 正则 表达 式 的 语言 都 提供 了 自己 的 “改进 "。 正 则 表达 式 不 断 发 展 ， 但 多 年 的 变化 也 造 
就 了 数目 众多 的 正则 表达 式 “ 流 派 ”(flavor)。 我 们 会 在 下 面 的 章节 中 见 到 各 种 例子 。 


正则 表达 式 的 目标 


The Goal of a Regular Expression 


从 最 宏观 的 角度 看 , 一 个 正则 表达 式 要 么 能 够 匹配 给 定 文本 (对 egrep 来 说 , 就 是 一 行文 本 ) 
中 的 某 些 字 符 ， 要 么 不 能 匹配 。 在 编写 正则 表达 式 的 时 候 ， 我 们 必须 进行 权衡 : 匹配 符合 
要 求 的 文本 ， 同 时 忽略 不 符合 要 求 的 文本 。 


尽管 egrep 不 关心 匹配 文本 在 行 中 的 位 置 , 但 对 正则 表达 式 的 其 他 应 用 来 说 , 这 个 问题 却 很 
重要 。 如 果 文 本 是 这 样 : 


„zip is 44272. If you write, send $4.95 to cover postage and... 


我 们 只 希望 找 出 包含 【0-91+) 的 那些 行 ， 就 不 需要 关心 真正 匹配 的 数字 。 相 反 ， 如 果 我 们 
需要 操作 这 些 数 字 (例如 保存 到 文件 、 添 加 、 替 换 之 类 一 一 我 们 会 在 下 一 章 看 到 这 样 的 处 
理 ) ， 就 需要 关心 确切 匹配 的 那些 数字 。 


更 多 的 例子 


A Few More Examples 


在 任何 语言 中 ， 经 验 都 是 非常 重要 的 ， 所 以 我 会 给 出 更 多 用 正则 表达 式 匹 配 党 用 文本 结构 
的 例子 。 


编写 正则 表达 式 时 ， 按 照 预期 获得 成 功 的 匹配 要 花 去 一 半 的 工夫 ， 另 一 半 的 工夫 用 来 考 
虑 如 何 忽 略 那些 不 符合 要 求 的 文本 。 在 实践 中 ， 这 两 方面 都 非常 重要 ， 但 是 目前 我 们 只 关 
注 “ 获 得 成 功 匹 配 ”的 方面 。 即 使 我 没有 对 这 些 例 子 进行 最 全 面 彻 底 的 解释 ， 它 们 仍然 能 
够 提供 有 用 的 启示 。 


i 
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变量 名 


许多 程序 设计 语言 都 有 标识 符 (identifier， 例 如 变量 名 ) 的 概念 ， 标 识 符 只 包含 字母 、 数 字 
以 及 下 画 线 ， 但 不 能 以 数字 开头 。 我 们 可 以 用 (a-za-2_] [a-za-2Z_0-9] 思 来 匹配 标识 符 。 
第 一 个 字符 组 匹配 可 能 出 现 的 第 一 个 字符 ， 第 二 个 (包括 对 应 的 “*,) 匹配 余下 的 字符 。 如 
果 标 识 符 的 长 度 有 限制 ,例如 最 长 只 能 是 32 个 字符 ,又 能 使 用 第 20 页 介绍 的 区 间 量 词 { min, 
maxrj， 我 们 可 以 用 '!(0,31): 来 替代 最 后 的 "*,。 


引号 内 的 字符 串 


匹配 引号 内 的 字符 串 最 简单 的 办 法 是 使 用 这 个 表达 式 :" [~^"]*"1。 


两 端的 引号 用 来 匹配 字符 串 开头 和 结尾 的 引号 。 在 这 两 个 引号 之 间 的 文本 可 以 包括 双 引 号 
之 外 的 任何 字符 。 所 以 我 们 用 '[^"] ,来 匹配 除 双 引 号 之 外 的 任何 字符 , 用 '*, 来 表示 两 个 引 
号 之 间 可 以 存在 任意 数目 的 非 双 引号 字符 。 


关于 引号 字符 串 ， 更 有 用 (也 更 复杂 ) 的 定义 是 ， 两 端的 双 引 号 之 间 可 以 出 现 由 反 斜 线 转 
义 的 双 引 号 , 例如 "nail*the*2\"x4\"*plank"。 在 后 面 的 章节 讲解 匹配 实际 进行 的 细节 时 ， 
我 们 会 多 次 遇 到 这 个 例子 。 


美元 金额 (可 能 包含 小 数 ) 


\$[0-9]+(\.10-9] [0-9])?, 是 一 种 匹配 美元 金额 的 办 法 。 


从 整体 上 看 ， 这 个 表达 式 很 简单 ， 分 为 三 部 分 : AS euR (…) ?)， 可 以 大 致 理解 为 : 一 
个 美元 符号 ， 然 后 是 一 组 字符 ， 最 后 可 能 还 有 另 一 组 字符 。 这 里 的 “字符 ” 指 的 是 数字 (一 
组 数字 构成 一 个 数值 ),“ 另 一 组 字符 ”是 由 一 个 小 数 点 和 两 位 数字 构成 的 。 


从 几 个 方面 来 看 ， 这 个 表达 式 还 很 简陋 。 比 如 ， 它 只 能 接受 $1000， 而 无 法 接受 $1,000。 
它 确实 能 接受 可 能 出 现 的 小 数 部 分 ， 但 对 于 egrep 来 说 意义 不 大 。 因 为 egrep 从 不 关心 匹配 
文字 的 内 容 ， 而 只 关心 是 否 存在 匹配 。 处 理 可 能 出 现 的 小 数 部 分 对 整个 表达 式 能 否 匹 配 并 
设 有 影响 。 


但 是 ， 如 果 我 们 需要 找到 只 包含 价格 而 不 含 其 他 字符 的 行 ， 倒 是 可 以 在 这 个 表达 式 两 端 加 
E'S. 这 样 一 来 ， 可 选 的 小 数 部 分 就 变 得 很 重要 了 ,因为 在 金额 数值 和 换行 符 之 间 是否 
存在 小 数 部 分 ， 决 定 了 整个 表达 式 的 匹配 结果 是 否 存在 差异 。 


www.TopSage.com 


基础 知识 拓展 25 


男 外 ， 这 个 正则 表达 式 还 无 法 匹配 “$ .49'。 你 可 能 认为 把 加 号 换 成 星 号 能 够 解决 问题 ， 不 
过 这 条 路 走 不 通 。 在 这 我 先 卖 个 关子 ， 答 案 留 待 第 5 章 (7194) 揭晓 。 


HTTP/HTML URL 


Web URL 的 形式 可 能 有 很 多 种 , 所 以 构造 一 个 能 够 匹配 所 有 形式 的 URL 的 正则 表达 式 颇 有 
难度 。 不 过 ， 稍 微 降低 一 点 要 求 的 话 ， 我 们 能 够 用 一 个 相当 简单 的 正则 表达 式 来 匹配 大 多 
数 常 见 的 URL。 进 行 这 种 检索 的 原因 之 一 是 ， 我 只 能 大 概 记 得 在 收 到 的 某 封 邮件 中 有 一 个 
URL 地 址 ， 不 过 一 见 到 它 我 就 能 认 出 来 。 


常见 的 HTTP/HTML URL 是 下 面 这 样 的 ， 
http://hostname/path.html 
当然 ，.htm 的 结尾 也 很 常见 。 


hostname (主机 名 , 例如 www.yahoo.com) 的 规则 比较 复杂 , 但 是 我 们 知道 , 跟 在 ‘http://* 
之 后 的 就 有 可 能 是 主机 名 , 所 以 这 个 正则 表达 式 就 很 简单 ，“[-a-z0-9_.]+。path 部 分 的 变 
化 更 多 ， 所 以 我 们 需要 使 用 '[-a-z0-9_:@&?=+,.!/~*%$]*/。 请 注意 ， 连 字符 必须 放 在 字 
符 组 的 开头 ， 保 证 它 是 一 个 普通 字符 ， 而 不 是 用 来 表示 范围 (79), 


综合 起 来 ， 我 们 第 一 次 尝试 的 正则 表达 式 就 是 : 


% egrep -i ‘\<http://[-a-z0-9_.:])+/[-a-z0-9_:@&?=4+, .!/~*$S$]*\. html?\>’ 
files 


因为 我 们 降低 了 对 匹配 的 要 求 ， 所 以 “http://..../foo.html” 也 能 匹配 ， 虽 然 它 显然 不 
是 一 个 合法 的 URL。 我 们 需要 关心 这 一 点 吗 ? 这 取决 于 具体 的 情况 。 如 果 我 只 是 需要 扫描 
自己 的 E-mail， 得 到 一 些 错误 结果 并 不 算是 问题 。 而 且 ， 我 没准 会 用 更 简单 的 表达 式 ， 


% egrep -i ‘\<http://[* ]*\.html?\>’ files.. 


在 深入 了 解 如 何 调 校 正则 表达 式 之 后 ， 读 者 会 明白 ， 要 想 在 复杂 性 和 完整 性 之 间 求 得 平衡 ， 
一 个 重要 的 因素 是 了 解 待 搜索 的 文本 。 下 一 章 ， 我 们 会 更 详细 地 考察 这 个 例子 。 


www.TopSage.com 


26 Hi. 正则 表达 式 入 门 


HTML tag 


对 egrep 这 样 的 工具 来 说 ， 简 单 地 匹配 包含 HTML tag 的 行 并 不 常见 ， 也 没什么 用 。 但 是 ， 
探索 如 何 准确 匹配 一 个 HTML tag 却 是 相当 有 启发 的 ， 在 下 一 章 深入 接触 更 高 级 的 工具 时 ， 
这 一 点 尤其 明显 。 


简单 的 例子 包括 “<TITLE>” 和 “<HR>' ,我们 可 能 会 想到 <.*>,。 这 个 简单 的 表达 式 往往 是 
最 直接 的 想法 , 但 它 显 然 是 不 对 的 。< .*>, 的 意思 是 ,“ 先 匹配 一 个 “<', 然后 是 任意 多 个 任 
意 宁 符 , 然 后 是 '>'”。 所 以 , 它 无 疑 能 够 匹配 不 止 一 个 tag 的 内 容 , 例 如 ‘this <I>short</1> 
example” 中 标记 的 内 容 。 


也 许 结果 有 点 出 乎 你 的 意料 ， 但 是 我 们 目前 还 只 在 第 1 章 ， 对 正则 表达 式 的 理解 也 不 够 深 
入 。 我 之 所 以 举 这 个 例子 ， 是 想 说 明正 则 表达 式 并 不 复杂 ， 但 是 如 果 你 不 真正 弄 民 它们 ， 
可 能 会 被 搞 得 量 头 转向 。 在 下 面 的 几 章 中 ， 我 们 会 学 习 理解 和 解决 这 个 问题 需要 的 所 有 细 
ti. 





表示 时 刻 的 文字 ， 例 如 “9:17 am" RA “12:30 pm” 


匹配 表示 时 刻 的 文字 可 能 有 不 同 的 严格 程度 。 
1[0-91?[0-9]:[0-9][0-9].(amlpm)) 
能 够 匹配 9:17-am 或 者 12:30"pm， 但 也 能 匹配 无 意义 的 时 刻 ， 如 99:99'pm。 


首先 看 小 时 数 ， 我 们 知道 ， 如 果 小 时 数 是 一 个 两 位 数 ， 第 一 位 只 能 是 1。 但 是 1?[0-9] | 
仍然 能 够 匹配 19 (也 能 够 匹配 0), 所 以 更 好 的 办 法 应 该 是 把 小 时 部 分 分 为 两 种 情况 来 处 理 ， 
'1(012) ,匹配 两 位 数 , '[1-9]) 匹 配 一 位 数 ， 结 果 就 是 '(1[012] 1[1-9])。 


分 钟 数 就 简单 些 。 第 一 位 数字 应 该 是 '[0-51;, 此 时 第 二 位 数字 应 该 是 '{0-911。 综合 起 来 就 
是 和 (1[012]1[1-9]):[0-5] [0-9]*(amlpm) j. 


举一反三 , 你 能 够 处 理 24 小 时 制 的 时 间 吗 ? 多 动 动脑 筋 , 想 想 该 如 何 处 理 以 0 开头 的 情况 ， 
比如 09:59 呢 ? 答案 请 见 下 页 。 


if 
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正则 表达 式 术语 汇总 


Regular Expression Nomenclature 
正则 (regex) 


你 或 许 已 经 猜 到 了 ,“ 正 则 表达 式 ”(regular expression) 这 个 全 名 念 起 来 有 点 麻烦 ， 写 出 来 
就 更 麻烦 。 所 以 ， 我 一般 会 采用 “正则 ”(regex) 的 说 法 。 这 个 单词 念 起 来 很 流畅 《有 点 像 
联邦 快递 的 FedEx, $ regular 一 样 ，g 发 重音 ， 而 不 同 于 Regina) ， 而 且说 “如 果 你 写 一 个 正 
则 ”,“ 巧 妙 的 正则 ”(budding regexers) ， 甚 至 是 “正则 化 ”(regexification) (7% 10) (译注 4)。 


匹配 (matching) 


一 个 正则 表达 式 “匹配 ”一 个 字符 串 ， 其 实 是 指 这 个 正则 表达 式 能 在 字符 串 中 找到 匹配 文 
Æ. Miti, EMRAN a 不 能 匹配 cat, ， 但 是 能 匹配 cat 中 的 a。 几 乎 没 人 会 混 清 这 
两 个 概念 ， 但 证 清 一 下 还 是 有 必要 的 。 


元 字符 (metacharacter) 


一 个 字符 是 否 元 字符 (或 者 是 “元 字符 序列 ”(metasequence)， 这 两 个 概念 是 相等 的 )， 取 
决 于 应 用 的 具体 情况 。 例 如 ， 只 有 在 字符 组 外 部 并 且 是 在 未 转 义 的 情况 下 , *; 才 是 一 个 元 
字符 。“ 转 义 ”(escaped) 的 意思 是 , 通常 情况 下 在 这 个 字符 之 前 有 一 个 反 斜 线 。\*1 是 对 *) 
的 转 义 而"\*! 则 不 是 (第 一 个 反 斜 线 用 来 转 义 第 二 个 反 斜 线 )， 虽 然 在 两 个 例子 中 ， 星 
号 之 前 都 有 一 个 反 斜 线 。 


正则 表达 式 的 流派 (flavor) 不 同 ， 关 于 字符 转 义 的 规定 也 不 相同 。 第 3 章 对 此 进行 了 详细 
讨论 。 


流派 (flavor) 


我 已 经 说 过 ， 不 同 的 工具 使 用 不 同 的 正则 表达 式 完 成 不 同 的 任务 ， 每 样 工 具 支 持 的 元 字符 
和 其 他 特性 各 有 不 同 。 我 们 再 举 单词 分 界 符 的 例子 。 某 些 版 本 的 egrep 支持 我 们 曾 见 过 的 
\<…\> 表 示 法 。 而 另 一 些 版 本 不 支持 单独 的 起 始 和 结束 边界 ， 只 提供 了 统一 的 bo 元 字符 
(这 个 元 字符 我 们 还 设 见 过 ， 下 一 章 才 会 用 到 )。 还 有 些 工具 同时 支持 这 两 种 表示 法 ， 另 有 
许多 工具 哪 种 也 不 支持 。 


我 用 “流派 (flavor)” 这 个 词 来 描述 所 有 这 些 细微 的 实现 规定 。 这 就 好 像 不 同 的 人 说 不 同 的 
方言 一 样 。 从 表面 上 看 “流派 ” 指 的 是 关于 元 字符 的 规定 ， 但 它 的 内 容 远 远 不 止 这 些 。 


注 10: 你 或 许 会 想到 那个 难看 的 缩写 regexp。 我 不 知道 这 个 词 应 该 如 何 发 音 ， 口 上 不 清 的 人 读 
起 来 可 能 会 容易 一 点 。 

译注 4: 正则 表达 式 的 全 名 是 regular expression， 简 写 为 regex， 原 著 中 此 处 的 标题 即 为 regex， 
采用 中 文 简称 “正则 ”。 


iil 
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即使 两 个 程序 都 支持 人 <…\>,， 它们 可 能 对 这 两 个 元 字符 的 意义 有 不 同 的 理解 ,对 单词 的 理 
解 也 不 相同 。 在 使 用 具体 的 工具 软件 时 ， 这 个 问题 尤其 重要 。 


改进 匹配 时 间 的 表达 式 ， 处 理 24 小 时 制 时 间 
+ 26 页 问题 的 答案 


办 法 有 许多 种 , 不 过 思路 和 之 前 差不多 。 现在 我 们 把 问题 分 为 3 部 分 : 其 一 是 上 午 (小 
时 数 从 00 到 09, 开头 的 0 可 选 ) ， 其 二 是 白天 (小 时 数 从 10 到 19)， 其 三 是 夜晚 (小 
时 数 从 20 到 23)。 这 样 答案 就 很 明显 了 :'0?3[0-9] 110-9] 12[0-3]s, 

实际 上 ， 我 们 可 以 合并 头 两 个 多 选 分 支 ， 得 到 '[01]?[0-9]12[0-3] ,。 你 可 能 需要 动 
点 脑筋 才能 明白 这 个 表达 式 与 上 面 是 完全 等 价 的 。 下 面 的 图 可 能 有 所 帮助 ， 它 还 提供 


了 另 一 种 思路 。 阴 影 部 分 表示 单个 多 选 分 支 能 够 匹配 的 数字 。 
左 图 右 图 


(01)? [0-9] |e (01)? (4-9) | a , 
9] aj 2| 3| 4] 5| 6| 7| sls 





请 不 要 混淆 “流派 (flavor)” 和 “工具 (tool)” 这 两 个 概念 。 两 个 人 可 以 说 同样 的 方言 ， 
两 个 完全 不 同 的 程序 也 可 能 属于 同样 的 流派 。 同 样 ， 两 个 名 字 相同 的 程序 (解决 的 任务 也 
相同 ) 所 属 的 流派 可 能 有 细微 《有 时 可 能 并 非 细 微 ) 的 差别 。 有 许多 程序 都 叫 egrep， 它 们 
所 属 的 流派 也 五 花 八 门 。 


由 Perl 语言 的 正则 表达 式 开创 的 流派 ， 在 20 世纪 90 年 代 中 期 因为 其 强大 的 表达 能 力 广 为 
人 们 所 知 ， 其 他 语言 紧 随 其 后 ， 提 供 了 汲取 其 中 灵感 的 正则 表达 式 (其 中 许多 为 了 标明 自 
己 的 思想 来 源 ， 直 接 给 自己 贴 上 “兼容 Perl (Perl-Compatible)” 的 标签 )。 它 们 包括 PHP, 
Python, Java 的 大 量 正 则 包 ， 微软 的 .NET Framework, Tel, 以 及 C 的 各 种 类 库 。 不 过 ， 所 
有 这 些 语言 在 重要 的 方面 各 有 不 同 。 而 且 Perl 的 正则 表达 式 也 在 不 断 演化 和 发 展 (现在 ， 
有 时 候 是 受 了 其 他 语言 的 正则 表达 式 的 刺激 )。 像 往常 一 样 ， 总 的 局 面 变 得 越 来 越 复杂 ， 让 
人 困惑 。 
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子 表达 式 (subexpression) 


“ 子 表达 式 ” 指 的 是 整个 正则 表达 式 中 的 一 部 分 , 通常 是 括号 内 的 表达 式 ， 或 者 是 由 | 分 
隔 的 多 选 分 支 。 例如 , ^ (Subject |Date) :+s tH, ‘subject | Date, ii BMA — TF RIK 
A. FEA ‘subject, 和 Date HAA LFAIAK. 而 且 , 严格 说 起 来 ,sj、'u、b、3j 这 些 
字符 ， 都 算 子 表达 式 。 


1-6 这 样 的 字符 序列 并 不 能 算 'H[1-61**, 的 子 表达 式 ， 因 为 “1-6 所 属 的 字符 组 是 不 可 分 
割 的 “单元 (unit)”。 但 是 , HI、'[1-6]1、"* 都 是 'H[1-6]** FRIAR, 


与 多 选 分 支 不 同 的 是 ， 量 词 ( 星 号 、 加 号 和 问号 ) 作用 的 对 象 是 它们 之 前 紧邻 的 子 表 达 式 。 
所 以 mis+pell; 中 的 + 作用 的 是 's,, 而 不 是 misi 或 者 isi。 当 然 , 如 果 量 词 之 前 紧邻 的 是 
一 个 括号 包围 的 子 表达 式 ， 整 个 子 表达 式 (无 论 多 复杂 ) 都 被 视 为 一 个 单元 。 


字符 (character) 


“字符 ”在 计算 机 领域 是 一 个 有 特殊 意义 的 单词 。 一 个 字 节 所 代表 的 单词 取决 于 计算 机 如 
何 解释 。 单 个 字 节 的 值 不 会 变化 ， 但 这 个 值 所 代表 的 字符 却 是 由 解释 所 用 的 编码 来 决定 的 。 
例如 ， 值 为 64 和 53 的 字 节 ， 在 ASCII 编码 中 分 别 代 表 了 字符 “e"” 和 “5"， 但 在 EBCDIC 
编码 中 ， 则 是 完全 不 同 的 字符 (一 个 是 空格 ， 一 个 是 控制 字符 )。 


另 一 方面 ， 在 流行 的 日 文字 符 编码 中 ， 这 两 个 字 节 代表 一 个 字符 正 。 如 果 换 一 种 日 文字 符 
编码 ,这 个 字 就 需要 两 个 完全 不 同 的 字 节 。 那 两 个 字 节 ,在 通行 的 Latin-1 编码 中 ,表示 “和 Ab"， 
而 在 Unicode 编码 中 又 表示 韩文 的 “ 针 ”( 注 11) 。 问 题 在 于 ， 字 节 如 何 解释 只 是 视角 ( 称 
为 “编码 ”encoding) 的 问题 ， 我 们 要 做 的 只 是 确保 自己 的 视角 和 正在 使 用 的 工具 的 视角 相 
同 。 


注 11: 关于 多 字 节 编码 的 权威 著作 是 Ken Lunde 的 CJKYV Information Processing， 这 本 书 亦 由 
O'Reilly 出 版 。CJKV 表示 Chinese, Japanese, Korean 和 Viemamese (汉语 、 日 语 、 韩 语 
和 越南 语 )， 这 4 种 语言 都 必须 使 用 多 字 节 编码 。Ken 和 Adobe 热心 地 提供 了 本 书 所 需 的 
特殊 字体 。 
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一 直 以 来 ， 文 本 处 理 软件 一 般 都 把 数据 视 为 一 些 ASC 编码 的 字 节 ， 而 不 考虑 使 用 者 期 望 
采用 的 字符 编码 。 不 过 , 近来 已 经 有 越 来 越 多 的 系统 在 内 部 使 用 某 些 格式 的 Unicode 编码 来 
处 理 数据 (第 3 章 介绍 了 Unicode, 一 105)。 如 果 这些 系 统 中 的 正则 表达 式 子 系统 的 实现 方 
式 正 确 ， 使 用 者 通常 就 不 需要 在 编码 的 问题 上 费 太 多 工夫 。 这 个 “如 果 ” 相 当 复杂 ， 所 以 
第 3 章 深入 讲解 了 这 个 问题 。 


改进 现状 


Improving on the Status Quo 


总 的 来 说 ， 正 则 表达 式 并 不 难 。 但 是 ， 如 果 你 与 使 用 过 支持 正则 表达 式 的 程序 或 语言 的 人 
交流 过 就 会 发 现 ， 某 些 人 确实 “会 用 ”正则 表达 式 ， 但 如 果 需 要 解决 复杂 的 问题 ， 或 是 换 
用 他 们 不 熟悉 的 工具 ， 就 会 出 问题 。 


传统 的 正则 表达 式 文 档 大 都 只 包含 一 两 个 元 字符 的 简略 介绍 ， 然 后 就 给 出 关于 其 他 元 字符 
的 表格 。 给 出 的 例子 通常 也 是 无 意义 的 'a* ((ab)*1b*)，;,， 文 本 则 是 ‘a*xxx*ce*xxxxxx 
ci*xxx*d'。 这 些 文档 大 都 忽略 了 细微 但 重要 的 知识 点 ， 总 是 声称 自己 与 其 他 出 名 的 工具 属 
于 同一 流派 ， 而 忘记 提 及 必然 存在 的 差异 。 它 们 缺乏 实用 价值 。 


当然 ， 我 的 意思 并 不 是 ， 本 章 就 能 够 填补 这 道 锅 沟 ， 让 读者 掌握 所 有 正则 表达 式 ， 或 是 掌 
提 egrep 的 正则 表达 式 。 相 反 , 这 一 章 只 是 为 本 书 的 其 他 内 容 铺垫 基础 。 我 希望 本 书 能 够 为 
读者 填补 这 道 鸿 沟 ， 虽 然 这 期 望 有 点 自负 。 很 多 读者 很 满意 本 书 的 第 一 版 ,我 本 人 也 为 拓 
展 这 一 版 的 深度 和 广度 付出 了 艰苦 的 努力 。 


或 许 是 因为 正则 表达 式 的 文档 一 直 都 非常 欠缺 ， 我 感到 自己 必须 做 出 额外 的 努力 ， 才 能 把 
知识 梳理 清楚 。 因 为 我 希望 保证 读者 能 够 充分 运用 正则 表达 式 的 潜力 ， 我 希望 你 们 能 够 真 
正 精 通 正则 表达 式 。 


这 既是 件 好 事 也 是 件 坏事 。 


好 处 在 于 ， 你 将 学 会 如 何以 正则 表达 式 的 方式 来 思考 问题 。 你 将 学 习 到 ， 在 面 对 属 于 不 同 
流派 的 新 工具 时 ， 需 要 注意 哪些 差异 和 特性 。 你 还 将 会 学 习 到 ， 如 果 某 个 流派 的 功能 弱小 、 
特性 简陋 ， 该 如 何 表达 自己 的 意图 。 你 将 会 明白 ， 一 个 正则 表达 式 的 效率 优 于 其 他 表达 式 
的 原因 所 在 ， 而 且 你 将 能 够 在 复杂 性 、 效 率 和 匹配 准确 性 间 进 行 取舍 权衡 。 
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面 对 特 别 复杂 的 任务 ， 你 将 会 知道 如 何 通过 程序 容许 的 方式 来 构建 和 使 用 正则 表达 式 。 总 
的 来 说 ， 你 能 够 得 心 应 手 地 使 用 正则 表达 式 的 所 有 法 能 .。 


问题 在 于 ， 这 种 方法 的 学 习 曲 线 非 常 陡 峭 ， 而 且 还 有 几 大 难点 : 


。 “正则 表达 式 的 使 用 许多 程序 使 用 的 正则 表达 式 比 egrep 要 复杂 。 在 我 们 探讨 如 何 构造 
真正 有 用 的 正则 表达 式 的 细节 之 前 ， 需 要 知道 正则 表达 式 的 使 用 方法 。 下 一 章 关 注 这 
一 问题 。 


。 正则 表达 式 的 特性 (feature) 面 对 问 题 ， 选 择 合适 的 工具 是 成 功 的 一 半 ， 所 以 我 会 在 
全 书 中 使 用 多 种 工具 。 不 同 的 程序 ， 甚 至 是 同一 个 程序 的 不 同 版 本 ， 支 持 的 特性 和 元 
字符 都 不 - 样 。 在 了 解 使 用 细节 之 前 ,我 们 必须 搞 清楚 这 个 问题 。 这 是 第 3 章 的 主题 。 


© “正则 表达 式 的 工作 原理 在 我 们 接触 有 用 (但 通常 也 很 复杂 ) 的 例子 之 前 , 我 们 必须 “ 揭 
开 盖 子 ” 来 了 解 正则 表达 式 的 工作 原理 。 我 们 将 会 看 到 ， 对 某 些 元 字符 进行 尝试 匹配 
的 次 序 是 一 个 重要 的 问题 。 实 际 上 ,正则 表达 式 引 擎 (regular expression engine) 不 同 ， 
工作 原理 也 不 同 ， 所 以 对 于 同样 的 正则 表达 式 ， 不 同 的 程序 会 得 到 不 同 的 结果 。 我 们 
将 在 第 4、5、6 章 中 探讨 这 个 复杂 的 问题 。 


正则 表达 式 的 工作 原理 是 最 重要 同时 也 是 最 难以 掌握 的 知识 。 研 究 这 个 问题 有 时 的 确 很 枯 
燥 ， 更 精 糕 的 是 ， 读 者 在 接触 真正 有 趣 的 内 容 一 一 解决 实际 问题 一 一 之 前 ， 不 得 不 耐 着 性 
子 看 完 它们 。 然 而 ， 弄 懂 正 则 表达 式 的 工作 原理 ， 才 是 真正 理解 的 关键 。 


你 或 许 会 想 ， 如 果 只 希望 学 会 开车 ， 是 不 需要 了 解 汽 车 运行 原理 的 。 但 是 ， 学 习 开车 与 学 
习 正则 表达 式 之 间 并 没有 多 少 相似 性 。 我 的 目的 是 教会 读者 如 何 使 用 正则 表达 式 -一 一 也 就 
是 编写 正则 表达 式 一 一 来 解决 问题 。 更 合适 的 比喻 是 ， 学 习 正则 表达 式 就 如 同学 习 如 何 千 
车 ， 而 不 是 如 何 开 车 。 在 制造 汽车 以 前 ， 我 们 必须 了 解 汽 车 的 工作 原理 。 


第 2 章 提供 了 更 多 的 关于 开车 的 经 验 。 第 3 章 简要 回顾 了 开车 的 历史 ， 详 细 考 察 了 正则 表 
达 式 流派 的 主要 内 容 。 第 4 章 介 绍 了 正则 表达 式 流派 的 重要 的 引擎 。 第 5 章 展 示 了 一 些 更 
复杂 的 例子 ， 第 6 章 告诉 你 如 何 调 校 某 种 具体 的 引擎 ， 之 后 的 各 章 则 是 检查 具体 的 产品 和 
模型 。 在 第 4、5、6 章 中 ,我 们 花 了 大 量 的 篇 幅 来 探讨 幕后 的 原理 ， 所 以 请 务必 做 好 准备 。 
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总 结 
Summary 


表 1-3 总 结 了 我 们 在 本 章 中 见 过 的 egrep 的 元 字符 。 
表 1-3: egrep 的 元 字符 总 结 






E SRA NER 
ERAT AAR 
排除 型 字符 组 匹配 单个 未 列 出 的 字符 


若 char 是 元 字符 ， 或 转 义 序列 无 特殊 含义 时 , 匹配 







[…] 
[^e] 







= clea | char 对 应 的 普通 字符 

EES grt + al ug ae Ben 

2 etek, abe 

: 是 号 | 可 以 匹配 任意 多 次 ， 也 可 能 不 匹配 
| 至 少 需要 匹配 一 次 ， 至 多 可 能 任意 多 次 

[min mas) EYER mink, £5 EH mack 


1 got 


Se cas ae RR ER 







匹配 一 行 的 开头 位 置 
匹配 一 行 的 结束 位 置 


$ 
匹配 任意 分 隔 的 表达 式 
限定 多 选 结构 的 范围 ， 标 注 量词 作用 的 元 素 ， 为 反 
向 引用 “捕获 ”文本 
o 匹配 之 前 的 第 一 、 第 二 组 括号 内 的 字 表 达 式 匹 配 的 
WAZ ic 反 向 引用 
N I it 


此 外 ， 请 务必 理解 以 下 几 点 : 


。 ”各 个 egrep 程序 是 有 差别 的 。 它 们 支持 的 元 字符 ， 以 及 这 些 元 字符 的 确切 含义 ， 通 党 
都 有 差别 一 一 请 参考 相应 的 文档 (23)。 


。 ”使 用 括号 的 3 个 理由 是 : 限制 多 选 结构 (13)、 分 组 (14) 和 捕获 文本 (721). 
。 ”字符 组 的 特殊 性 在 于 ， 关 于 元 字符 的 规定 是 完全 独立 于 正则 表达 式 语言 “主体 ”的 。 
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。 ”多 选 结构 和 字符 组 是 截然 不 同 的 ， 它 们 的 功能 完全 不 同 ， 只 是 在 有 限 的 情况 下 ， 它 们 
的 表现 相同 (713). 


° ”排除 型 字符 组 同样 是 一 种 “肯定 断言 ”(positive assertion) 一 一 即使 它 的 名 字 里 包含 了 
“排除 ”两 个 字 ， 它 仍然 需要 匹配 一 个 字符 。 只 是 因为 列 出 的 字符 都 会 被 排除 ， 所 以 
最 终 匹 配 的 字符 肯定 不 在 列 出 的 字符 之 内 (712). 


” -的 参数 很 有 用， 它 能 进行 忽略 大 小 写 的 匹配 (715), 
° FECA 3 种 情况 ， 
1. ,加 上 元 字符 ,表示 匹配 元 字符 所 使 用 的 普通 字符 (例如 *, 匹配 普通 的 星 号 )。 


2. ,加 上 非 元 字符 ,组 成 一 种 由 具体 实现 方式 规定 其 意义 的 元 字符 序列 (例如, ^< 
表示 “单词 的 起 始 边 界 ”)。 


3. \ 加 上 任意 其 他 字符 ， 默 认 情 况 就 是 匹配 此 字符 (也 就 是 说 ， 反 斜 线 被 包 赂 了 ) 。 


请 记 住 , 对 大 多 数 版 本 的 egrep 来 说 , 字符 组 内 部 的 反 斜 线 没有 任何 特殊 意义 ,所 以 此 
时 它 并 不 是 一 个 转 义 字符 。 


。 ”由 星 号 和 问号 限定 的 对 象 在 “匹配 成 功 ” 时 可 能 并 没有 匹配 任何 字符 。 即 使 什么 字符 
都 不 能 匹配 到 ， 它 们 仍然 会 报告 “匹配 成 功 ”。 


一 家 之 言 


Personal Glimpses 


本 章 开 始 的 单词 重复 的 例子 可 能 有 些 让 人 迷惑 ， 不 过 正则 表达 式 的 功能 的 确 很 强大 ， 我 们 
只 需要 egrep 这 样 简单 的 工具 , 用 第 ! 章 的 知识 ， 就 能 够 基本 解决 这 个 问题 。 我 倒是 希望 在 
本 章 多 讲 些 复杂 点 的 例子 ， 但 是 因为 我 希望 用 第 | 章 为 后 面 的 章节 打下 坚实 的 基础 ， 我 担 
心 ， 如 果 这 一 章 满 是 提醒 、 注 意 、 规 则 之 类 ， 那 些 从 未 接触 过 正则 表达 式 的 人 在 读 完 之 后 ， 
或 许 会 感到 困惑 一 一 “需要 这 么 麻烦 吗 ? ” 


我 哥哥 曾 教 朋 友 玩 一 种 叫 schaffkopf 的 纸牌 游戏 , 这 个 游戏 在 我 们 家 流传 了 好 几 代 了 。 其 中 
真正 的 乐趣 并 不 会 在 第 一 次 接触 时 体会 到 ， 而 且 学 习 的 曲线 也 很 陡峭 。 我 的 嫂子 丽 兹 平时 
是 最 有 耐心 的 人 ， 但 玩 了 半 个 小 时 就 对 这 些 复杂 的 规则 感到 灰心 丧气 了 ， 她 说 “我 们 不 能 
不 能 玩 兰 米 (译注 5) 吗 ? ”不 过 最 后 的 结果 是 ， 包 括 丽 兹 在 内 的 所 有 人 都 玩 到 很 晚 。 只 要 


译注 5: 兰 米 rummy 是 一 种 比较 简单 、 流 行 的 玩法 。 
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度 过 了 开始 的 难关 ， 接 下 来 的 刺激 就 会 引诱 他 们 继续 向 前 。 我 哥哥 知道 肯定 会 这 样 ， 但 丽 
效 和 其 他 玩 伴 需 要 花费 时 间 和 工夫 来 继续 深入 才能 体会 到 这 个 游戏 的 乐趣 。 


习惯 正则 表达 式 可 能 需要 花 一 些 时 间 ， 所 以 在 你 没有 真切 体会 到 用 正则 表达 式 解决 问题 的 
成 就 感 时 ， 可 能 会 觉得 这 样 有 点 迁 腐 。 如 果 是 ， 我 希望 你 能 够 抵抗 住 “ 玩 兰 米 游戏 ”的 诱 
惑 。 一 旦 你 掌握 了 正则 表达 式 的 强大 功能 ， 就 会 感到 花 在 学 习 上 的 那些 时 间 真 是 物 超 所 值 。 
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Extended Introductory Examples 


还 记得 第 1 章 中 单词 重复 的 例子 吗 ? 我 说 过 ， 完 整 解决 这 个 问题 只 需要 用 Perl 之 类 的 语言 
写 几 行 代码 。 它 看 起 来 像 是 这 样 : 


S/ = Ns 
while (<>) { 
next if 'S/Nb( [a-z] +) ( (?:\81<[^>]+>)+) (\1\b) /\e[7m$1\e [m$2\e[7m$3\e[m/ig; 
S/^(?:[^\e]*\n)+//mg; # 去 除 未 标记 的 行 
s/*/$ARGV: /mg; # 在 行 首 添加 文件 名 
print; Ry ee ta, 
} 


ow 
即便 你 对 Per ATAR, SL 
是 ， 这 个 例子 让 你 看 到 eprep . 















这 段 程序 (至少 目前 如 此 )。 我 希望 的 
PALA TIE MARA REED. 


TE 
。 ‘\p(fa-z] +) (1 ga : 
© I(?:[^ \el*\n) +e AA 、 

. la x4 he SRS 
gence 4 
尽管 这 是 一 个 Perf Bes at jU (或 者 只 需要 做 很 少 的 改 

K'S AS 
动 ) SCA bP la oF 

现在 来 看 这 3 A 


= Tol 等 等 。 

个 式 包含 我 们 在 egrep 中 
LOREAL 因为 人 e EE LN 未 法 有 所 不 同 ,而 
C a 
中 见 到 许多 例子 。 AEN To SNe ~” Pea es 


mH HA 
es 
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大 于 这 些 例子 


About the Examples 


本 章 包 括 了 一 些 常 见 的 问题 一 一 验证 用 户 的 输入 数据 ， 处 理 E-mail header (电子 邮件 头 )， 
把 纯 文 本 数据 转换 为 超 文本 格式 (HTML)， 通 过 这 些 问题 ， 你 将 真正 见识 到 正则 表达 式 的 
世界 。 在 构造 正则 表达 式 时 ， 我 会 做 些 尽 可 能 详细 的 讲解 ， 提 供 一 些 启示 。 在 这 个 过 程 中 ， 
我 们 会 见 到 一 些 egrep 没有 提供 的 结构 和 特性 ， 也 会 专门 花 很 多 篇 幅 来 探讨 其 他 重要 的 概 


在 本 章 的 末尾 及 下 面 的 各 章 中 国 我 会 使 用 各 种 语言 ,包括 PHP, Java 和 VB.NET， 但 是 本 
章 中 我 们 主要 使 用 的 还 是 Pei。 这些 语言 见 当然 出 包括 其 他 许多 语言 ,对 正则 表达 式 的 操纵 
能 力 都 远 远 强 于 egrep， 所 以 使 用 其 中 任何 二 种 作为 也 范 都 会 让 我 们 见 到 许多 有 趣 的 内 容 。 
我 选择 以 Perl 开始 ， 主 要 是 因为 ， 在 所 有 流行 的 语言 中 Perl 对 正则 表达 式 的 支持 很 完 
且 易 于 使 用 。 而 且 ，Per 还 查 供 子 许多 其 他 紧凑 的 数据 处 理 结构 (data-handling constructs) , 
能 够 减少 所 需 的 “简单 重复 劳动 dirty work) 光 以便 我 们 把 精力 集中 到 正则 表达 式 上 。 


第 2 页 出 现 的 文件 检查 的 程序 很 好 地 说 明了 这 种 能 力 ， 我 需要 用 这 个 程序 来 确定 每 个 文件 
中 “ResetSize” 出 现 的 次 数 与 “Setsize” 出 现 的 次 数 是 否 一 样 多 。 我 选择 的 语言 是 Perl， 
命令 如 下 : 


% perl -One 'print “SARGV\n* if s/ResetSize//ig != s/SetSize//ig'’ * 


(我 并 不 奢望 你 现在 就 能 明白 这 条 命令 一 一 我 只 希望 你 能 注意 到 这 条 命令 有 多 简洁 。) 


我 喜欢 Pen ， 但 现在 讨论 的 主题 不 是 Perl。 请 记 住 ,本章 的 重点 是 正则 表达 式 。 这 有 点 儿 像 
计算 机 系 的 教授 在 第 一 学 年 的 课堂 上 说 的 “你 们 将 会 在 这 里 学 习 计算 机 科学 知识 ， 但 我 们 
选择 用 Pascal 语言 作为 学 习 的 工具 ”( 注 1)。 


因为 本 章 并 不 假设 读者 已 经 懂得 Perl， 所 以 我 会 做 些 必要 的 讲解 ， 让 你 明白 这 些 例子 (第 7 
章 讲解 Perl 的 本 质 的 细节 , 它 假设 读者 懂得 一 些 基本 的 知识 )。 即使 你 曾经 用 过 好 几 门 语言 ， 
Perl 也 可 能 让 你 觉得 奇怪 ， 因 为 它 的 语法 极 精炼 ， 语 意 又 极 丰富 。 为 了 让 这 些 例子 更 清楚 ， 
我 不 会 使 用 Per 提供 的 这 些 特 性 ， 而 是 用 一 种 更 普通 的 近乎 伪 码 的 风格 来 展示 这 些 程序 。 
BRATE “MERI”, (ix AEA Perl 的 编程 风格 。 不 过 ， 我 们 将 通过 它们 认识 到 
正则 表达 式 的 重要 作用 。 


注 1: Pascal 是 一 种 传统 的 程序 设计 语言 , 设计 的 初衷 是 为 了 教学 。 这 个 比喻 来 自 William F.Maton 
和 他 的 教授 。 
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Perl 简单 入 门 


A Short Introduction to Perl 


Perl 是 一 门 功能 强大 的 脚本 语言 , 诞生 于 20 世纪 80 年 代 末期 , 其 思想 主要 来 自 其 他 的 编程 
语言 和 工具 。Perl 关于 文本 处 理 和 正则 表达 式 的 许多 概念 来 自 两 种 专业 化 的 语言 awk 和 sed, 
它们 都 非常 不 同 于 “传统 ”的 语言 ， 例 如 C 和 Pascal, 


Perl 可 以 应 用 于 许多 平台 ， 包 括 DOS/Windows, MacOS, OS/2, VMS 和 Unix。 它 的 文本 
处 理 能 力 极其 强大 ， 是 关于 Web 的 处 理 中 最 常 使 用 的 工具 。 如 果 要 获得 对 应 你 的 机 器 版 本 
的 Perl， 请 参考 www.perl.com, 


本 书 是 为 Perl 的 5.8 版 而 写 的 ， 不 过 本 章 的 例子 可 以 在 5.005 以 后 的 版 本 上 使 用 。 
现在 来 看 一 个 简单 的 例子 : 


celsius = 30; 
Sfahrenheit = ($celsius * 9 / 5) + 32; # 计算 华氏 温度 
print “$celsius C is $fahrenheit F.\n"; # 返回 摄氏 和 华氏 温度 


执行 这 段 程序 ， 结 果 是 : 


30 C is 86 F. 


$fahrenheit 和 $celsius 之 类 的 普通 变量 一 般 以 s 开 头 ， 可 以 保存 一 个 数值 或 者 任意 长 度 
的 文本 (在 本 例 中 只 保存 了 数值 )。 从 # 到 行 尾 都 是 注释 。 


如 果 你 曾经 使 用 过 C、C# 或 者 Java, VB.NET, 你 可 能 无 法 理解 在 Perl 中 变量 居然 能 够 出 现 
在 双 引 号 包围 的 字符 串 中 。 在 字符 串 “s$celsius C is $fahrenheit F.\n” 中 ， 每 个 变 
量 都 会 被 它 的 实际 值 所 取代 。 在 本 例 中 ， 结 果 就 是 打印 出 来 的 字符 串 (n 代表 换行 )。 


Per 也 提供 了 跟 其 他 流行 的 语言 类 似 的 控制 结构 : 


$celsius = 20; 

while ($celsius <= 45) 

{ 
fahrenheit = ($celsius * 9 / 5) + 32; # 计算 华氏 温度 
print “$celsius C is $fahrenheit F.\n"; 
Scelsius = $celsius + 5; 

} 


在 条 件 为 真 ( 即 $celeiue <= 45) Ft, while 循环 控制 的 部 分 会 重复 执行 。 把 这 段 代 码 写 
入 到 一 个 程序 中 ， 例 如 temps， 我 们 可 以 直接 从 命令 行 运行 它 。 
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下 面 是 运行 的 结果 : 
% perl -w temps 
20 C is 68 F. 
25 Ç 15 7I F; 
30 C is 86 F. 
35 C is 95 F. 
40 C is 104 F. 
45 C is 113 F. 


-w 参数 并 不 是 运行 所 必须 的 ， 与 正则 表达 式 也 没有 直接 的 联系 。 它 只 是 告诉 Peri ， 仔 细 检 
查 我 们 的 程序 ， 在 Perl 认为 可 疑 的 地 方 发 出 警报 (例如 没有 初始 化 的 变量 之 类 一 一 在 Perl 
h, 变量 不 需要 事先 声明 就 能 使 用 )。 在 这 里 加 上 这 个 参数 , 只 是 因为 它 是 一 种 良好 的 习惯 。 





好 了 ， 这 就 是 Perl 的 简单 人 门 。 下 面 我 们 来 看 在 Perl 中 如 何 使 用 正则 表达 式 。 


使 用 正则 表达 式 匹 配 文本 


Matching Text with Regular Expressions 


Perl 可 以 以 多 种 方式 使 用 正则 表达 式 ,最 简单 的 就 是 检查 变量 中 的 文本 能 否 由 某 个 正则 表达 
式 匹 配 。 下 面 的 代码 检查 $reply 中 所 含 的 字符 串 ， 报 告 这 个 字符 串 是 否 全 部 由 数字 构成 : 


if (Sreply =~ m/*[0-9]+$/) { 
print “only digits\n’‘; 
} else { 
print “not only digits\n’; 
} 
第 一 行 的 代码 也 许 有 些 奇怪 : 正则 表达 式 是 '^[0-9]+$ !， 两 边 的 m/…/ 告 诉 Perl 该 对 这 个 
正则 表达 式 进行 什么 操作 。m 代表 尝试 进 行 “ 正 则 表达 式 匹配 (regular expression match)”, 
斜 线 用 来 标记 界限 ( 注 2)。 之 前 的 =~ 用 来 连接 m/…/ 和 和 欲 搜索 的 字符 串 , 即 本 例 中 的 Sreply。 


请 不 要 混 请 =-、= 和 ==。 运 算 符 == 用 来 测试 两 个 数字 是 否 相 等 (我 们 将 会 看 到 ， 运 算 符 eq 
用 来 测试 两 个 字符 串 是 否 相 等 )。 运 算 符 = 用 来 给 变量 赋值 ， 例 如 $celsius = 20。 最 后 ，=~ 
用 来 连接 正则 表达 式 和 待 搜索 的 目标 字符 串 。 在 这 个 例子 中 ， 要 搜索 的 正则 表达 式 是 
m/^[0-9]+$/， 而 目标 字符 串 是 $reply。 此 程序 在 其 他 语言 中 的 思路 有 所 不 同 ， 我 们 会 在 
下 一 章 看 到 例子 。 


注 2: 在 许多 情况 下 ，m 并 不 是 必须 出 现 的 。 这 个 例子 用 $reply =- /^[0-9]+$/ 也 可 以 ， 有 过 
Perl 编程 经 验 的 读者 或 许 会 觉得 这 样 更 顺眼 。 我 个 人 认为 ， 加 上 m 更 清晰 ， 所 以 我 喜欢 这 
么 做 。 
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把 =~ 读 作 “ 匹 配 (matches)” 可 能 比较 省 事 ， 所 以 
if (Sreply =~ m/^ (0-9] +$/) 
读 作 : 
“如 果 变 量 $reply 所 含 的 文本 能 够 匹配 正则 表达 式 “[0-9]+$,， 那 么 …"” 


如 果 '“^[0-9]+$; 能 够 匹配 $reply 的 内 容 ，$reply =~ m/^【0-9]+$/ 的 返回 值 就 为 true, F 
则 为 false, if 语句 使 用 true/false 值 来 决定 输出 什么 信息 。 


请 注意 ， 如 果 sreply 中 包含 任意 的 数字 字符 ，$reply =- m/ [0-91+/ ( 相 比 之 前 的 表达 式 ， 
去 掉 了 开头 的 脱 字 符 和 结尾 的 美元 符 ) 的 返回 值 就 是 true, WAR -Si 保证 整个 Sreply 
只 包含 数字 。 


现在 把 上 面 两 个 例子 结合 起 来 。 首 先 提 示 用 户 输入 一 个 值 ， 接 收 这 个 输入 ， 用 一 个 正则 表 
达 式 来 验证 ， 确 保 输入 的 是 一 个 数值 。 如 果 是 ， 我 们 就 计算 相应 的 华氏 温度 ， 否 则 ， 我 们 
输出 一 条 报警 信息 : 

print “Enter a temperature in Celsius:\n’; 


$celsius = <STDIN>; # 从 用 户 处 接受 一 个 输入 
chomp ($celsius) ; # 去 挤 $Scelsius 后 面 的 撞 行 符 


if ( $celsius =~ m/*[(0-9)+$/) { 
$fahrenheit = ($celsius * 9 / 5) + 32; # 计 算 华氏 温度 
print “$celsius C is $fahrenheit F\n’; 

} else { 


print “Expecting a number, so I don't understand \"“$celsius\"”.\n’"; 


} 


请 注意 最 后 的 print 语句 有 两 个 转 义 的 双 引 号 , 它们 的 作用 并 不 是 标记 引用 字符 串 的 边界 。 
对 大 多 数 语言 的 文字 字符 串 〈literal string) 来 说 ， 有 时 候 需 要 转 义 某 些 字符 ,做 法 跟 正 则 表 
达 式 中 元 字符 的 转 义 很 相似 。 在 Perl 中 ， 字 符 串 与 正则 表达 式 的 区 别 并 非 很 重要 ， 但 是 在 

Java, Python 等 语言 中 却 极为 重要 。"“ 一 点 题 外 话 一 一 数量 丰富 的 元 字符 ”这 一 节 ( 亚 44) 
更 详细 地 讨论 了 这 个 问题 (VB.NET 是 个 明显 的 例外 ， 在 那里 转 义 双 引 号 用 “““” 而 不 是 
se I 


如 果 我 们 把 这 段 程序 保存 为 c2f， 则 运行 结果 如 下 ; 
% perl -w c2f 
Enter a temperature in Celsius: 


22 
22 C is 71.599999999999994316 F 


哎呀 ， 看 来 〈 至 少 在 某 些 系统 上 ) ，Perl 的 简单 的 print 并 不 能 很 好 地 处 理 浮 点 数 。 
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我 不 想 在 本 章 中 讨论 Perl 的 细节 ,但 是 我 告诉 你 用 printf (“格式 化 输出 (print formatted)” ) 
可 以 解决 这 个 问题 


printf “%.2f C is %.2f F\n", celsius, $fahrenheit; 


这 里 的 printf ÆW C 语言 中 的 printf, Mx Pascal, Tel, elisp 和 Python 中 的 format, 
它 不 会 更 改变 量 的 值 ， 而 只 是 改变 显示 的 方式 。 现 在 的 结果 好 看 多 了 : 
Enter a temperature in Celsius: 


22 
22.00 C is 71.60 F 


向 更 实用 的 程序 前 进 


Toward a More Real-World Example 


让 我 们 扩展 这 个 例子 ， 容 许 输入 负数 和 可 能 出 现 的 小 数 部 分 。 这 个 问题 的 计算 部 分 没 问题 
一 一 Perl 通常 情况 下 不 区 分 整数 和 学 点 数 。 不 过 我 们 需要 修改 正则 表达 式 , 容许 输入 负数 和 
浮 点 数 。 我 们 添加 一 个 -?1 来 容许 最 前 面 的 负数 符号 。 实 际 上 , 我 们 可 以 用 '[-+]?, 来 处 理 
开头 的 正 负 号 。 


要 容许 可 能 出 现 的 小 数 部 分 ， 我 们 添加 和 (\ .10-9]*)?!。 转 义 的 点 号 匹配 小 数 点 ， 所 以 
A. [0-9]*) 用 来 匹配 小 数 点 和 后 面 可 能 出 现 的 数字 。 因为 小. [0-9] 妃 被 "(…) ?所 包围 ， 整 
个 子 表 达 式 都 不 是 匹配 成 果 所 必须 的 (请 注意 , 它 与 ?3[0-9]*, 是 截然 不 同 的 , 对 后 一 个 
表达 式 中 ， 即 使 \ .无 法 匹配 , '[0-9]*) 也 能 够 匹配 接 下 来 的 数字 )。 


把 这 些 综合 起 来 ， 就 得 到 这 样 的 条 件 判断 语句 : 
if ($celsius =~ m/*[-+]?[0-9]+(\.[0-9]1*)2$/) { 


它 能 够 匹配 32, -3.723, +98.6 这 样 的 文字 。 不 过 还 不 够 完善 : 它 不 能 匹配 以 小 数 点 开头 
的 数 (例如 .357)。 当 然 ， 用 户 可 以 添加 一 个 整数 位 0 来 匹配 (例如 0.357)， 所 以 我 认为 
这 并 不 是 一 个 严重 的 问题 。 这 个 浮 点 数 问题 处 理 起 来 得 靠 些 诀 窑 ， 我 们 会 在 第 5 章 详 细 讲 
Re (7194), 


成 功 匹 配 的 副作用 


Side Effects of a Successful Match 


我 们 再 进一步 ， 让 这 个 表达 式 能 够 匹配 摄氏 和 华氏 温度 。 我 们 让 用 户 在 温度 的 末尾 加 上 C 
或 者 F 来 表示 。 我 们 可 以 在 正则 表达 式 的 末尾 加 上 “[cF] 来 匹配 用 户 的 输入 ， 但 还 需要 修 
改 程序 的 其 他 部 分 ， 以 便 识别 用 户 输入 的 温度 类 型 ， 并 进行 相应 的 转换 。 


在 第 ! 章 ， 我 们 看 到 过 某 些 版 本 的 egrep 支持 作为 元 字符 的 \1、\2,、\3,， 用 来 保存 前 面 


www.TopSage.com 


使 用 正则 表达 式 匹 配 文本 41 


的 括号 内 的 子 表达 式 实际 匹配 的 文本 (721), Perl 和 其 他 许多 支持 正则 表达 式 的 语言 都 支 
持 这 些 功能 ， 而 且 匹 配 成 功 之 后 ， 在 正则 表达 式 之 外 的 代码 仍然 能 够 引用 这 些 匹 配 的 文本 。 


我 们 会 在 下 一 章 看 到 各 种 语言 是 如 何 做 到 这 一 点 的 (7137), (AA Perl 的 办 法 是 通过 变量 
$1, $2, 等 等 ， 它 们 指向 第 一 组 、 第 二 组 、 第 三 组 括号 内 的 子 表达 式 实 际 匹 配 的 文本 。 
这 未 免 有 点 奇怪 ， 它 们 都 是 变量 ， 而 变量 名 则 是 数字 。 正 则 表达 式 匹 配 成 功 一 次 ，Perl 就 会 
设置 一 次 。 


总 结 一 下 ， 在 尝试 匹配 时 ， 正 则 表达 式 中 的 元 字符 "1, 指向 之 前 匹配 的 某 些 文本 ， 匹 配 成 
功 之 后 ， 在 接 下 来 的 程序 中 用 $1 来 引用 同样 的 文本 。 


为 了 保持 例子 的 简洁 ， 集 中 表现 新 的 地 方 ， 我 先 不 考虑 小 数 部 分 ， 之 后 再 来 看 它 。 所 以 ， 
我 们 来 看 $1， 请 比较 : 


$celsius =~ m/*{-+]?[0-9]14(CF]§/ 

和 a- ny 
添加 的 括号 改变 了 正则 表达 式 的 意义 吗 ? 为 了 回答 这 个 问题 ， 我 们 需要 知道 ， 这 些 括号 是 
否 改变 了 星 号 或 者 其 他 量词 的 作用 对 象 , 或 是 "1, 的 意义 。 答案 是 ， 都 没有 改变 ， 所 以 这 个 
表达 式 仍 然 能 够 匹配 相同 的 文本 。 不 过 ， 他 们 确实 围 住 了 我 们 期 望 匹配 字符 串 中 “有 价值 ” 


文本 的 子 表达 式 。 如 图 2-1 所 示 ，$1 保存 那些 数字 ， 而 $2 保存 c 或 者 F。 下 一 页 的 图 2-2 
是 程序 的 流程 图 ， 我 们 发 现 ， 这 个 图 让 我 们 很 容易 地 决定 匹配 之 后 应 该 干什么 。 








2-1: 捕获 型 括号 
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图 2-2: 温度 转换 程序 的 逻辑 流程 
示例 2-1: 温度 转换 程序 


print “Enter a temperature (e.g., 32F, 100C):\n”; 
Sinput = <STDIN>; # 接收 用 户 输入 的 一 行文 本 
chomp ($input) ; # 去 掉 文 本 末尾 的 换行 竺 


if ($input =~ m/*([-+]?[0-9]+) ({CF])$/) 

{ 
# 如 果 程 序 运 行 到 此 ， 则 已 经 匹配 。$1 保存 数字 ，S$2 保存 "C" 或 者 "F” 
SInputNum = $1; # 把 数据 保存 到 已 命名 变量 中 .… 
$type $2; #.. 保 证 程序 清晰 易 懂 


if ($type eq “C") { # 'eq 测试 两 个 字符 事 是 否 相 等 
# 输入 为 摄氏 温度 ， 则 计算 华氏 温度 
$celsius = $InputNum; 
Sfahrenheit = (S$celsius * 9 / 5) + 32; 

} else { 
# 如 果 不 是 "C" ， 则 必然 是 "F"， 计 算 摄 氏 温度 
$fahrenheit = $InputNum; 
Scelsius = ($fahrenheit - 32) * 5 / 9; 


} 
# 现 在 得 到 了 两 个 温度 值 ， 显 示 结 果 : 


printf “%.2f C is %.2f F\n", $celsius, $fahrenheit; 
} else { 


# 如 果 最 开始 的 正则 表达 式 无 法 匹配 ， 报 警 
print “Expecting a number followed by \“C\”" or \"F\",\n"; 
print “so I don't understand \”$input\”.\n”; 
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如 果 上 一 页 的 程序 名 叫 convert， 我 们 可 以 这 样 使 用 : 


% perl -w convert 

Enter a temperature (e.g., 32F, 100C): 
39F 

3.89 C is 39.00 F 

% perl -w convert 

Enter a temperature (e.g., 32F, 100C): 
39C 

39.00 C is 102.20 F 

% perl -w convert 

Enter a temperature (e.g., 32F, 100C): 
oops 

Expecting a number followed by “C” or “F*%, 
so I don't understand “oops”. 


错综复杂 的 正则 表达 式 


Intertwined Regular Expressions 


在 Perl 之 类 的 高 级 语言 中 ， 正 则 表达 式 的 使 用 与 其 他 程序 的 逻辑 是 混合 在 一 起 的 。 为 了 说 
明 这 一 点 ， 我 们 对 这 个 程序 做 三 点 改进 : 像 之 前 一 样 能 够 接收 浮 点 数 ， 容 许 £ 或 者 < 是 小 
写 ， 容 许 数字 和 字母 之 间 存在 空格 。 这 三 点 全 都 完成 之 后 ， 程 序 就 能 够 接收 “98.6*f 的 
输入 。 


我 们 已 经 知道 ， 添 加 和 (\. [0-9] *) ?4 就 能 够 处 理 浮 点 数 : 

if ($input =~ m/^([-+]?[0-9]+(\.[0-9]*)?)([CF])$/) 
请 注意 ， 它 添加 在 第 一 个 括号 内 部 ， 因 为 我 们 用 第 一 组 括号 内 的 子 表达 式 来 捕获 温度 的 值 ， 
我 们 当然 希望 它 能 够 包含 小 数 部 分 。 不 过 ， 增 加 了 这 组 括号 之 后 ， 即 使 它 只 是 用 来 分 组 问 


号 限定 的 对 象 ， 也 会 影响 到 引用 捕获 文本 的 变量 。 因 为 这 组 括号 的 开 括号 在 整个 表达 式 中 
排 在 第 二 位 (从 左 向 右 数 )， 所 以 它 匹配 的 文本 存 和 人 $2 ( 见 图 2-3). 





保存 于 $1 
保存 于 $2 保存 于 $3 
$input =~ m/^ (BN Je (\. (0-9) *)2) (IOF) $/ 
第 1 个 开 括号 第 个 开 括号 第 3 个 开 括号 
图 2-3: REHES 
i 
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2-3 说 明了 括号 的 幅 套 关系 。 在 '[cF] ,之 前 添加 一 组 括号 并 不 会 直接 影响 整个 正则 表达 式 
的 意义 ， 但 是 会 产生 间接 的 影响 ， 因 为 现在 '[cF] ,所 在 的 括号 排 在 第 3 位 。 这 也 意味 着 我 
们 需要 把 $type 的 赋值 从 $2 改 为 $3 (如 果 不 希 望 这 么 做 ， 可 以 参考 下 一 页 的 补充 内 容 )。 


接 下 来 ， 我 们 要 处 理 数 字 和 字母 之 间 可 能 出 现 的 空格 。 我 们 知道 ， 正 则 表达 式 中 的 空格 字 
符 正好 对 应 匹配 文本 中 的 空格 字符 , 所 以 **, 能 够 匹配 任意 数目 的 空格 (但 并 不 是 必须 出 现 
空格 ): 


if ($input =~ m/*({-+]?[0-9]+(\.[0-9]*)?), *([CF])$/) 


但 这 样 还 不 够 灵活 ， 而 我 们 希望 的 是 开发 一 个 能 够 实际 应 用 的 程序 ， 所 以 必须 容许 其 他 的 
空白 字符 (whitespace)。 例 如 常见 的 制 表 符 (tabs)。 但 是 Te 并 不 能 匹配 空格 ， 所 以 我 们 
需要 一 个 字符 组 来 匹配 两 者 A) *,。 


请 把 上 面 这 个 子 表达 式 与 (** 1 国 *) ,进行 对 比 ， 你 能 发 现 这 其 中 的 巨大 差异 吗 ? 令 请 翻 到 下 
一 页 查看 答案 。 


本 书 中 空格 字符 和 制 表 符 都 很 常见 ， 因 为 我 使 用 ': 和 国 来 表示 它们 。 不 幸 的 是 ， 在 屏幕 上 却 
不 是 如 此 。 如 果 你 见 到 [ ]*， 在 没有 实际 测试 过 以 前 ， 只 能 猜测 这 是 空格 符 还 是 制 表 符 。 
为 了 方便 使 用 , Perl 提供 了 \t, 这 个 元 字符 。 它 能 够 匹配 制 表 符 一 一 相 比 真正 的 制 表 符 , E 
的 好 处 就 在 于 看 得 更 清楚 ， 所 以 我 会 在 正则 表达 式 中 采用 这 个 元 字符 。 于 是 “[' 国 ] eR 


Et] *jo 


Perl 还 提供 了 一 些 简便 的 元 字符 , 例如 \n (表示 换行 符 ), ^f (ASCH 的 进 纸 符 formfeed) , 
和 “、b, ( 退 格 符 )。 不 过 ,确切 地 说 ,\bi 在 某 些 情况 下 是 退 格 符 ， 有 些 情况 下 又 表示 单词 分 
界 符 。 它 怎么 能 身 兼 数 职 呢 ? 下 一 节 我 们 会 看 到 。 


一 点 是 外话 一 一 数量 丰富 的 元 字符 


在 前 面 的 例子 里 我 们 见 到 了 \n， 但 是 \n 都 出 现在 字符 串 而 不 是 正则 表达 式 中 。 就 像 多 数 语 
言 一 样 ，Perl 的 字符 串 也 有 自己 的 元 字符 ,它们 完全 不 同 于 正则 表达 式 元 字符 。 新 程序 员 常 
犯 的 错误 就 是 混 清 了 这 两 个 概念 (VB.NET 是 个 例外 , 因为 其 中 字符 串 的 元 字符 少 得 可 怜 ) 。 
字符 串 的 元 字符 中 有 一 些 跟 正则 表达 式 中 对 应 的 元 字符 一 模 一 样 。 你 可 以 在 字符 串 中 用 \t 
加 入 制 表 符 ， 也 可 以 在 正则 表达 式 中 用 元 字符 \t; 来 匹配 制 表 符 。 
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非 捕获 型 括号 (?:…) ， 


在 图 2-3 中 , 我 们 用 括号 包围 "(\.[0-9]*)?1 来 正确 分 组 , 所 以 我 们 能 够 用 一 个 问号 正 
确 地 作用 于 整个 仆 . [0-9]*j， 把 它们 作为 可 选项 部 分 。 这 样 的 副作用 就 是 这 个 括号 内 
的 子 表 达 式 捕获 的 文本 保存 到 S2 中 ， 而 我 们 并 不 会 使 用 S2。 如 果 有 这 样 一 种 括号 ， 它 
只 能 用 于 分 组 ， 而 不 会 影响 文本 的 捕获 和 变量 的 保存 ， 问 题 就 好 办 多 了 。 
Perl 以 及 近期 出 现 的 其 他 正则 表达 式 流派 提 供 了 这 个 功能 。'(…)) 用 来 分 组 和 捕获 ， 而 
1(?:…)1 表 示 只 分 组 不 扩散 。 使 用 这 个 表示 法 ,“ 开 括号 ”是 3 个 字母 构成 的 序列 (?:， 
这 看 起 来 很 古怪 。 这 里 的 “?” 和 表示 “可 选项 ”的 ?1 元 字符 没有 任何 联系 (可 以 翻 
到 第 90 页 了 解 这 个 古怪 的 表示 法 的 来 历 ) 。 
所 以 ， 整 个 表达 式 变 成 : 

if ($input =~ m/*([-4+]?[0-9]+ (?:\.[0-9]*)?) ([CF])$/) 


现在 ,即使 '[CF]1 两 端的 括号 的 确 是 排 在 第 三 位 , 它 匹 配 的 文本 也 会 保存 到 $2 P, A 
为 “(? :…)) 不 会 影响 捕获 计数 。 


这 样 做 的 好 处 有 两 点 。 第 一 是 避免 了 不 必要 的 捕获 操作 ， 提 高 了 匹配 效率 (我 们 会 在 
第 6 章 详细 讨论 效率 问题 ) 。 另 一 个 好 处 是 ,总 的 来 说 ,根据 情况 选择 合适 的 括号 能 馆 
让 程序 更 清晰 ， 看 代码 的 人 不 会 被 括号 的 具体 细节 所 困扰 。 


另 一 方面 ，(?:…) 1 表示 法 确实 不 够 美 现 ， 或 者 说 它 会 增加 整个 表达 式 的 阅读 难度 。 它 
带 来 的 好 处 能 够 抵消 这 些 问 题 吗 ? 我 个 人 喜欢 根据 需要 选择 合适 的 括号 ， 但 是 在 本 例 
中 ， 或 许 不 值得 这 样 麻烦 。 如 果 匹 配 只 需要 进行 一 次 (而 不 需要 在 柱 环 中 多 次 匹配 ) ， 
效率 并 不 重要 。 


在 本 章 中 ,我 全 部 采用 (…)1， 即 使 不 需要 捕获 文本 时 也 是 如 此 ， 因 为 这 样 看 起 来 更 清 
#. 





这 种 相似 性 无 疑 方便 了 使 用 ， 但 是 我 必须 强调 区 分 这 两 种 元 字符 的 重要 性 。 对 于 \t 这 样 简 
单 的 情况 来 说 或 许 并 不 重要 ， 但 对 于 我 们 将 要 看 到 的 各 种 不 同 的 语言 和 工具 来 说 ， 知 道 在 
什么 情况 下 应 该 使 用 什么 元 字符 是 极其 重要 的 。 


iti 
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测验 答案 


> 44 页 问题 的 答案 

r CERE 和 (-* fale) 的 异同 

‘(++ fle), EH KB *; 的 匹配 ， 它 能 够 匹配 若干 空格 符 (也 可 以 没有 ) 以 及 若干 
HAH (也 可 以 没有 )， 不 过 并 不 容许 制 表 竺 和 空格 竺 的 混合 体 。 

WA, LA EB RES A, FRE A, 它 可 以 匹配 k, 第 一 次 是 
HAH, 后 两 次 是 空格 符 。 

AKL CHS CORD AFH, 尽管 因 为 第 4 章 将 会 解释 其 原因 ， 字 待 组 的 
效率 通常 还 是 会 高 一 点 。 





我 们 已 经 见 过 不 同 的 字符 组 之 间 的 冲突 。 在 第 1 章 , 使 用 egrep 时 ,我 们 把 正则 表达 式 包含 
在 单 引 号 中 。 整个 egrep 命令 行 写 在 command-shell 提示 符 , shell 能 够 认 出 它 自己 的 元 字符 。 
例如 ， 对 shell 来 说 ， 空 格 符 就 是 一 个 元 字符 ， 它 用 来 分 隔 命 令 和 参数 ， 或 者 参数 与 参数 。 
在 许多 shell H, 单 引 号 是 元 字符 , 单 引 号 内 的 字符 串 中 的 字符 不 需要 被 当 作 元 字符 处 理 (DOS 
使 用 双 引 号 )。 


在 shell 中 使 用 引号 容许 我 们 在 正则 表达 式 中 使 用 空格 。 否 则 ，shell 会 把 空格 认 作 参 数 之 间 
的 分 隔 符 , 而 不 是 把 整个 正则 表达 式 传递 给 egrep。 许多 shell 能 够 识别 的 元 字符 包括 $、*、? 
之 类 一 一 我 们 在 正则 表达 式 中 也 会 用 到 这 些 元 字符 。 


目前 ， 所 有 关于 shell 的 元 字符 和 Perl 字符 捉 的 元 字符 的 讨论 都 还 与 正则 表达 式 本 身 没有 任 
何 关联 ， 但 它们 会 影响 到 现实 环境 中 正则 表达 式 的 使 用 。 随 着 阅读 的 深入 ， 我 们 会 见 到 许 
多 (有 时 候 还 很 复杂 ) 情况 , 我 们 需要 同时 在 不 同 层级 上 使 用 元 字符 交互 (multiple levels of 


simultaneously interacting metacharacters ) 。 


那么 \b 的 情况 呢 ? 这 是 一 个 正则 表达 式 的 问题 : 在 Perl 的 正则 表达 式 中 ,"\bj 通 常 是 匹配 
一 个 单词 分 界 符 的 ， 但 是 在 字符 组 中 ， 它 匹配 一 个 退 格 符 。 单 词 分 界 符 作为 字符 组 的 一 部 
分 则 没有 任何 意义 ， 所 以 Perl 完全 可 以 用 它 来 匹配 其 他 的 字符 。 第 1 章 曾 提醒 我 们 ， 字 符 
组 “ 子 语言 ”的 规范 不 同 于 正则 表达 式 主体 ， 这 条 规则 也 适用 于 Perl (包括 任何 其 他 流派 的 
正则 表达 式 )。 
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用 \s 匹配 所 有 “空白 


讨论 空白 的 问题 时 ， 我 们 最 后 使 用 的 是 '["\t]* ;。 这 样 做 没 问 题 ， 但 许多 流派 的 正则 表达 
式 提供 了 一 种 方便 的 办 法 :\sl。\s; 看 起 来 类 似 \ts, \t, 代 表 制 表 符 , 而 "s; 则 能 表示 所 有 
表示 “空白 字符 (whitespace character)” 的 字符 组 ， 其 中 包括 空格 符 、 制 表 符 、 换 行 符 和 回 
车 符 。 在 我 们 的 例子 中 ， 换 行 符 和 回 车 符 并 不 需要 特别 考虑 ， 但 是 、\s*; 显然 比 '["\t]* 要 
简洁 。 而 且 不 久 你 就 会 习惯 这 种 表示 法 ， 在 复杂 的 表达 式 中 ，\s* 更 加 易于 理解 。 


现在 我 们 的 程序 变 成 


$input =~ m/*([-+)?(0-9]+(\.[0-9)*)?)\s*((CF])$/ 


最 后 ， 我 们 还 必须 能 够 处 理 表示 温度 制式 的 小 写字 母 。 简 单 的 办 法 是 直接 把 小 写字 母 添 加 
到 字符 组 中 ，[cFcf],。 不 过 ， 我 更 愿意 使 用 另 一 种 办 法 : 


$input =~ m/*((-+]?[0-9)+(\.[0-9)*)?)\s*({CF]) S44, 


添加 的 这 个 i 称 作 “修饰 符 (modifier)”, FO EME m/…/ 结 构 之 后 ， 告 诉 Perl 进行 不 区 分 
大 小 写 的 匹配 。 修 饰 符 其 实 不 是 正则 表达 式 的 一 部 分 ,而 是 m/…/ 结 构 的 一 部 分 ， 这 个 结构 
告诉 Perl 使 用 者 的 意图 (应 用 一 个 正则 表达 式 )， 以 及 采用 的 正则 表达 式 (在 斜 线 之 间 的 部 
分 )。 我 们 曾 看 到 过 这 种 功能 ， 即 egrep 的 -i BR (715), 


时 时 刻 刻 说 “i 修饰 符 (the i modifier)” 有 点 麻烦 ， 所 以 我 们 通常 说 “/i”， 即 使 真正 的 写 
法 并 不 是 “/i”。/i 只 是 在 Perl 中 指定 修饰 符 的 办 法 之 一 一 一 在 下 一 章 ， 我 们 会 看 到 其 他 
的 办 法 ， 以 及 其 他 语言 实现 此 功能 的 写法 。 在 本 章 后 面 的 部 分 ， 我 们 还 会 看 到 其 他 的 修饰 
符 , 例如 /g (表示 “全 局 匹配 (global match)”) 以 及 /x (表示 “宽松 排列 的 表达 式 (free-form 


expressions)” ), 


现在 ， 我 们 已 经 做 了 不 少 修改 了， 来 看 看 新 的 程序 ; 


$ perl -w convert 

Enter a temperature (e.g., 32F, 100C): 
32 f 

0.00 C is 32.00 F 

% perl -w convert 

Enter a temperature (e.g., 32F, 100C): 
50 c 

10.00 C is 50.00 F 


哎呀 1 你 是 否 注意 到 了 ，, 第 二 次 运行 时 我 们 输入 的 是 摄氏 50 RE, 结果 被 认 成 了 华氏 50 BE? 
看 看 程序 的 逻辑 ， 你 找 出 问题 了 吗 ? 


it 
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再 来 看 程序 的 片段 : 
if ($input =~ m/*[-+])?[0-9)+(\.[0-9])*) ?})\s*([CF])$/i) 


$type = $3; # 把 数据 保存 到 以 命名 的 变量 ， 让 程序 更 易 懂 
if ($type eq “C”) { # 'eq' 测试 两 个 字 村 事 是 否 相 等 


sorses 


scene 


虽然 我 们 的 正则 表达 式 能 够 接受 小 写 的 f, 程序 的 其 他 部 分 却 没 有 相应 的 修改 。 在 这 个 程序 
里 ， 只 有 $type 是 “c” 的 时 候 ， 才 作为 摄氏 度 处 理 。 因 为 程序 同样 可 以 接受 小 写 的 =， 我 
们 需要 修改 $type 的 判断 : 


if ($type eq “C” or $type eq “c") { 


实际 上 ， 因 为 本 书 是 关于 正则 表达 式 的 ， 我 或 许 这 样 做 : 


if (Stype =~ m/c/i) { 


现在 ， 大 小 写 的 情况 都 能 应 付 了 。 最 终 的 程序 如 下 所 示 。 这 个 例子 告诉 我 们 ， 正 则 表达 式 
的 使 用 方式 ， 可 能 会 影响 到 程序 的 其 他 部 分 。 


示例 2-2: 温度 转换 程序 一 一 最 终 版 本 


print “Enter a temperature (e.g., 32F, 100C):\n"; 
$input = <STDIN>; # 接收 用 户 输入 的 一 行文 本 
chomp ($input) ; # 去 掉 Sinput RA MMF 
if ($input =~ m/*([-+]?[0-9])+(\.[0-9]*)?)\s*([CF])$/i) 
{ 
# 如 果 运 行 和 到 此 ， 则 已 经 匹配 ，51 保存 数值 ，$3 保存 C 或 者 下 
$InputNum = $1; # 把 数据 保存 到 已 命名 的 变量 
$type = $3; # ,保证 程序 的 可 读 性 
if ($type =~ m/c/i) { $ Is it. *c* or "C"? 
# 输 入 的 是 摄 民 温度 ， 计 算 华氏 温度 
$celsius = $InputNum; 
Sfahrenheit = ($celsius * 9 / 5) + 32; 
} else { 
# 如 果 不 是 "C" ， 则 必定 是 "FE"， 所 以 计算 摄氏 温度 
$fahrenheit = $InputNum; 
Scelsius = ($fahrenheit - 32) * 5 / 9; 


} 
# 现在 两 个 值 者 月 了 ， 输 出 结果 : 


printf “%.2f C is %.2f F\n", $celsius, $fahrenheit; 
} else { 


# 开始 的 表达 式 无 法 匹配 ， 发 出 警报 
print “Expecting a number followed by \"C\" or \"F\",\n"; 
print “so I don't understand \"Sinput\".\n‘%; 
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暂停 片刻 


Intermission 


尽管 本 章 的 大 部 分 篇 幅 是 关于 熟悉 Perl 的 ， 但 也 遇 到 了 许多 新 的 关于 正则 表达 式 的 知识 。 


一 一 


. 许多 工具 都 有 自己 的 正则 表达 式 流派 。Perl 和 egrep 可 能 属于 同一 个 流派 ， 但 是 Perl 的 
正则 表达 式 中 的 元 字符 更 多 。 许 多 其 他 的 语言 ， 类 似 Java, Python, NET 和 TCL， 它 们 
的 流派 类 似 Perl. 


nN 


. Perl 用 $variable =~ m/regex/ 来 判断 一 个 正则 表达 式 是 否 能 匹配 某 个 字符 串 。m 表示 “ 匹 
Bc (match)”， 而 斜 线 用 来 标注 正则 表达 式 的 边界 (它们 本 身 不 属于 正则 表达 式 )。 整 个 
测试 语句 作为 一 个 单元 ， 返 回 true 或 者 false 值 。 


3. 元 字符 一 一 具有 特殊 意义 的 字符 一 一 的 定义 在 正则 表达 式 中 并 不 是 统一 的 。 之 前 在 关于 
shell 和 双 引 号 引用 的 字符 串 的 例子 中 我 们 讲 过 ， 元 字符 的 含义 取决 于 具体 的 情况 。 了 解 
具体 情况 (shell、 正 则 表达 式 、 字 符 串 )， 其 中 的 元 字符 及 其 作用 ， 对 学 习 和 使 用 Perl, 
PHP, Java, Tcl, GNU Emacs, awk, Python 或 其 他 高 级 语言 是 非常 重要 的 (当然, 在 
正则 表达 式 内 部 ， 字 符 组 有 自己 的 “ 子 语言 "， 其 中 的 元 字符 是 不 同 的 )。 


4. Perl 和 其 他 流派 的 正则 表达 式 提供 了 许多 有 用 的 简 记 法 (shorthands) ; 


\t HAH 

in 换行 村 

\r BAH , 

\s 任何 “空白 ”字符 (例如 空格 桂 、 制 表 竺 、 进 纸 竺 等 ) 

\S 除 八 sj 之 外 的 任何 字符 

\w ‘fa-zA-Z0-9]) (在 "\w+) 中 很 有 用 ， 可 以 用 来 匹配 一 个 单词 ) 
\W 除 "\wj 之 外 的 任何 字符 ， 也 就 是 '[^a-zA-20-9]] 

\d 5 [0-9],， 即 数字 

\D RhA 外 的 任何 字符 ， 即 [^0-9]， 


， /修饰 符 表 示 此 测试 不 区 分 大 小 写 。 尽 管 写 法 是 “/i”， 其 实 “i” 只 是 跟 在 表示 结尾 的 
斜 线 之 后 。 


wr 


6.“(?:…) ,这 个 麻烦 的 写法 可 以 用 来 分 组 文本 ， 但 并 不 捕获 。 


. 匹配 成 功 之 后 ，Perl 可 以 用 $1、$2、$3 之 类 的 变量 来 保存 相对 应 的 “(…) ,括号 内 的 子 表 
达 式 匹配 的 文本 。 使 用 这 些 变量 ， 我 们 能 够 用 正则 表达 式 从 字符 串 中 提取 信息 (其 他 的 
语言 所 使 用 的 方式 有 所 不 同 ， 我 们 会 在 下 一 章 看 到 例子 )。 


~ 
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子 表 达 式 的 编号 按照 开 括 号 的 出 现 先 后 排序 ， 从 1 Fi TREATIES, Hán 
(washington(*DCc)?)]。 如 果 只 是 希望 分 组 ， 也 可 以 使 用 "(…)，， 但 副作用 是 ， 它 们 捕 
获 的 文本 仍然 会 保存 到 特殊 的 变量 中 。 


使 用 正则 表达 式 修改 文本 


Modifying Text with Regular Expressions 


到 现在 ， 我 们 遇 到 的 例子 都 只 是 从 字符 串 中 “提取 ”信息 。 现 在 我 们 来 看 Pel 和 其 他 许多 
语言 提供 的 一 个 正则 表达 式 特性 : 替换 (substitution， 也 可 以 叫 “ 查 找 和 和 替换 (search and 


replace)” )。 


我 们 已 经 看 到 ，$var =- m/regex/ 尝 试用 正则 表达 式 来 匹配 保存 在 变量 中 的 文本 ， 并 返回 
表示 能 否 匹配 的 布尔 值 。 与 之 类 似 的 结构 $var =~ s/regex/replacement/ 则 更 进一步 如 果 正 
则 表达 式 能 够 匹配 $var 中 的 某 段 文本 , 则 将 这 段 匹配 的 文本 替换 为 replacement, 其 中 regex 
与 之 前 m/…/ 的 用 法 一 样 ， 而 replacement (位 于 第 二 个 和 第 三 个 斜 线 之 间 ) 则 是 作为 双 引 号 
内 的 字符 串 。 这 就 是 说 ， 在 其 中 可 以 使 用 变量 一 一 例如 $1、$2 一 一 来 引用 之 前 匹配 的 具体 
文本 。 


所 以 ,使 用 $var =~ s/…/…/ 可 以 改变 Svar 中 的 文本 (如果 没 有 找到 匹配 的 文本 ， 也 就 不 
会 有 替换 发 生 )。 例 如 ， 如 果 S$var 包括 Jeff*Friedl, 运行 ; 

Svar =~ s/Jeff/Jeffrey/; | 
Svar 的 值 就 变 成 Jeftfery'Friedl。 如 果 再 运行 一 次 ， 就 得 到 Jeffreyrey*Friedl。 要 训 
免 这 种 情况 ， 也 许 我 们 需要 添加 表示 单词 分 界 的 元 字符 。 在 第 1 章 我 们 提 到 过 ， 某 些 版 本 
的 egrep 支持 <!/ 和 >, 作为 “单词 起 始 ” 和 “单词 结束 ”的 元 字符 。Perl 提供 了 统一 的 元 
字符 "bj 来 代表 这 两 者 : 

Svar =~ s/\bJeff\b/Jeffrey/; 
这 里 有 个 小 测验 :与 m/…/ 一 样 ，s/…/…/ 也 可 以 使 用 修饰 符 ， 例 如 第 47 页 介绍 的 /i (将 
这 个 修饰 符 放 在 replacement 之 后 )。 那 么 ， 这 个 表达 式 : 


$var =~ s/\bJeff\b/Jeff/i; 


的 功能 是 什么 呢 ? 令 请 翻 到 下 页 查看 答案 。 


AF: 公函 生成 程序 


Example: Form Letter 


下 面 这 个 有 趣 的 例子 展示 了 文本 替换 的 用 途 。 设 想 有 一 个 公函 系统 ， 它 包含 很 多 公函 模板 ， 
其 中 有 一 些 标 记 ， 对 每 一 封 具体 的 公函 来 说 ， 标 记 部 分 的 值 都 有 所 不 同 。 
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这 里 有 一 个 例子 : 


Dear =FIRST=, 

You have been chosen to win a brand new =TRINKET=! Free! 
Could you use another =TRINKET= in the =FAMILY= household? 
Yes =SUCKER=, I bet you could! Just respond Dy... 


对 特定 的 接收 和 信 ， 变 量 的 值 分 别 为 : 


given = “Tom”; 
family = “Cruise”; 
Swunderprize = "100% genuine faux diamond’; 


准备 好 之 后 ， 就 可 以 用 下 面 的 语句 “填写 模板 ”: 


$letter =~ s/=FIRST=/Sgiven/g; 

$letter =~ s/=FAMILY=/S$family/g; 

$letter =~ s/=SUCKER=/S$given $family/g; 

Sletter =~ s/=TRINKET=/fabulous $wunderprize/g; 
其 中 的 每 个 正则 表达 式 首先 搜索 简单 标记 ， 找 到 之 后 用 指定 的 文本 替换 它 。 用 于 替换 的 文 
本 其 实 是 Pel 中 的 字符 串 ， 所 以 它们 能 够 引用 变量 ， 就 像 上 面 的 程序 那样 。 例 如 ， 
s/=TRINKET=/fabulous $wunderprize/g 中 下 男 线 部 分 在 程序 运行 时 的 值 就 是 fabulous 
$wunderprize”。 如 果 只 需要 生成 一 份 公 沙 ， 完 全 可 以 不 用 变量 替换 ， 直 接 照 需要 的 样子 
生成 就 是 。 但 是 ， 使 用 变量 替换 能 够 实现 自动 化 的 操作 ， 例 如 可 以 从 一 个 清单 读 人 信息。 


我 们 还 没 介 绍 过 /g“ 全 局 替换 ”(8global replacement) 的 修饰 符 。 它 告诉 s/…/…/ 在 第 一 次 
替换 完成 之 后 继续 搜索 更 多 的 匹配 文本 ， 进 行 更 多 的 替换 。 如 果 需 要 检查 的 字符 申 包 含 多 
行 需要 替换 的 文本 ， 每 条 替换 规则 都 对 所 有 行 生 效 ， 我 们 就 必须 使 用 /9。 
结果 是 可 以 预见 的 ， 不 过 相当 有 趣 ， 

Dear Tom, 

You have been chosen to win a brand new fabulous 100% genuine faux diamond! 


Free! Could you use another fabulous 100% genuine faux diamond in the Cruise 
household? Yes Tom Cruise, I bet you could! Just respond by... . 


举例 : 修整 股票 价格 


Example: Prettifying a Stock Price 


另 一 个 例子 是 ， 我 在 使 用 Pel 编写 的 股票 价格 软件 时 遇 到 的 问题 。 我 得 到 的 价格 看 起 来 是 
这 样 “9.0500000037272"。 这 里 的 价格 显然 应 该 是 9.05， 但 是 因为 计算 机 内 部 表示 浮 点 
的 原理 , Pel 有 时 会 以 没什么 用 的 格式 输出 这 样 的 结果 。 我 们 可 以 像 温 度 转换 例子 中 的 那样 
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测验 答案 


4 50 页 的 测验 的 答案 

$var =~ 8/\bJjeff\b/Jeff/i 实现 了 什么 功能 ? 

这 个 问题 可 能 让 你 困 赤 。 如 果 前 面 的 正则 表达 式 用 改 bJEFF\b) 或 者 bjeff\b 或 者 是 
"\bjEfF\bj 可 能 看 得 更 清楚 。 因 为 /i 的 存在 ,搜索 “Jeff ”这 个 词 是 不 区 分 大 小 写 的 。 
而 所 有 匹配 的 字符 事 都 会 被 替换 为 “Jeff'， 第 一 个 字母 是 大 写 ， 其 他 为 小 写 (/i 对 
replacement 的 文本 没有 有 影响， 不 过 第 7 章 讨 论 的 某 些 修饰 符 不 是 如 此 )。 

结果 就 是 ,“jeff” 这 个 单词 ， 无 论 大 小 写 的 情况 如 何 ， 都 会 被 替换 为 “Jeff ”。 





用 printf 来 保证 只 输出 两 位 小 数 , 但 是 此 处 并 不 适用 。 当 时 ,股价 仍然 是 以 分 数 的 形式 给 
出 的 ， 如 果菜 个 价格 以 1/8 结尾 ， 则 应 该 输出 3 位 小 数 《“ .125”)， 而 不 是 两 位 。 


我 把 自己 的 要 求 归结 为 : 通常 是 保留 小 数 点 后 两 位 数字 ， 如 果 第 三 位 不 为 零 ， 也 需要 保留 ， 
去 掉 其 他 的 数字 ,结果 就 是 12.3750000000392 或 者 12.375 会 被 修正 为 “12.375”, 而 37.500 
被 修正 为 “37.50”。 这 就 是 我 要 的 结果 。 


那么 ， 我 们 该 如 何 做 呢 ?$price 变量 包含 了 需要 修正 字符 串 ， 让 我 们 用 这 个 表达 式 : 


$price =~ s/({\.\d\d[1-9]?)\d*/$1/ 
(提示 : 49 页 介绍 了 di 这 个 元 字符 ， 它 用 来 匹配 一 个 数字 字符 。) 


最 开始 的 .匹配 小 数 点 。 接 下 来 的 \a\d 匹配 开头 的 两 位 数字 。[1-9] ?匹配 可 能 跟 在 后 
面 的 非 零 数字 。 到 这 里 ， 任 何 匹 配 的 文本 都 是 我 们 希望 保留 的 ， 所 以 我 们 用 括号 把 它 保存 
到 $1 中 。 然 后 将 $1 放 入 replacement 字符 串 中 。 如 果 能 够 匹配 的 文本 就 是 $1， 我 们 就 用 $1 
替换 $1 一 -这样 做 没什么 意义 。 但 如 果 在 $1 的 括号 之 外 还 有 能 够 匹配 的 字符 ， 因 为 它们 没 
有 出 现在 replacement 字符 串 中 ， 所 以 会 被 删除 。 也 就 是 说 ,“ 被 删除 的 ”文本 是 其 他 多 余 的 
数字 ， 也 就 是 正则 表达 式 末 尾 “\a*; 匹 配 的 字符 。 


请 记 住 这 个 例子 ， 在 第 4 章 我 们 会 学 习 匹 配 过 程 背后 的 重要 原理 ， 那 时 候 还 会 遇 到 这 个 例 
子 。 研 究 它 可 以 学 到 非常 有 价值 的 知识 。 





iti 
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自动 的 编辑 操作 


Automated Editing 


写作 本 章 时 ， 我 遇 到 了 另 一 个 简单 但 真实 存在 的 例子 。 当 时 我 需要 登录 到 太平 洋 对 岸 的 一 
台 机 器 上 ， 但 是 网 速 非常 慢 。 按 下 回 车 得 等 一 分 多 钟 才 能 见 到 反应 ， 而 我 只 需要 对 某 个 文 
件 进行 一 些小 的 改动 , 运行 一 个 重要 的 程序 。 实 际 上 , 我 要 做 的 只 是 将 出 现 的 所 有 sysread 
改 为 reada。 改 动 的 次 数 并 不 多 ， 但 因为 网 络 太 慢 ， 使 用 全 屏 编 辑 器 显然 是 不 可 能 的 。 


下 面 是 我 的 办 法 : 
% perl -p -i -e 's/sysread/read/g' file 


这 条 命令 中 的 Perl 程序 是 s/sysread/read/g (是 的 ， 这 就 是 一 个 完整 的 Perl 程序 一 一 参 
数 -e 表示 整个 程序 接 在 命令 的 后 面 )。 参 数 -p 表示 对 目标 文件 的 每 一 行进 行 查找 和 替换 ， 
而 -i 表示 将 替换 的 结果 写 回 到 文件 。 


请 注意 ， 这 里 没有 明确 写 出 查找 和 替换 的 目标 字符 串 〈 就 是 说 ， 没 有 $var =~…)， 因 为 -p 
参数 就 表示 对 目标 文件 的 每 行文 本 应 用 这 段 程序 。 同 样 ， 因 为 我 用 了 /9 这 个 修饰 符 ， 就 可 
以 保证 在 一 行文 本 中 可 以 进行 多 次 替换 。 

尽管 在 这 里 我 只 是 对 一 个 文件 进行 操作 ， 但 也 很 容易 在 命令 行 中 列 出 多 个 文件 ， 而 Perl 会 
把 替换 命令 应 用 到 每 个 文件 的 每 一 行文 字 。 这 样 ， 只 需要 一 条 简单 的 命令 ， 我 就 能 够 编辑 


大 量 的 文件 。 这 样 简单 的 编辑 方式 是 Per 独 有 的 ， 但 这 个 例子 告诉 我 们 ， 即 使 执行 的 是 简 
单 的 任务 ， 作 为 脚本 语言 一 部 分 的 正则 表达 式 的 功能 仍然 非常 强大 。 


处 理 邮件 的 小 工具 


A Small Mail Utility 


来 看 另 一 个 小 工具 的 例子 。 一 个 文件 中 保存 着 E-mail 信息 ， 我 们 需要 生成 一 个 用 于 回复 的 
文件 。 在 准备 过 程 中 ， 我 们 需要 引用 原始 的 信息 ， 这 样 就 能 很 容易 地 把 回复 插入 各 个 部 分 。 
在 生成 回复 邮件 的 header 时 ， 我 们 还 需要 删除 原始 信息 邮件 的 header 中 不 需要 的 行 。 


下 一 页 的 补充 内 容 是 一 个 邮件 文件 的 范本 。header 包含 了 我 们 关心 的 字段 : 日期、 主题 等 
一 一 但 也 包括 了 我 们 不 关注 的 字段 , 这 些 字段 需要 删除 。 如 果 我 们 的 脚本 程序 叫做 mkreply， 
而 原始 的 信息 保留 在 king.in 中 ， 我 们 会 用 下 面 的 命令 来 生成 回复 模板 : 


% perl -w mkreply king.in > king.out 


(-w 它 用 来 打开 Perl 的 额外 警告 功能 ， 一 38) 
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E-mail Message 范本 


From elvis Thu Feb 29 11:15 2007 

Received: from elvis@localhost by tabloid.org (8.11.3) id KA8CMY 
Received: from tabloid.org by gateway.net (8.12.5/2) id N8XBK 
To: jfriedl@regex.info (Jeffrey Friedl) 

From: elvis@tabloid.org (The King) 

Date: Thu, Feb 29 2007 11:15 

Message-Id: <2007022939939.KA8CMY@tabloid.org> 

Subject: Be seein' ya around 

Reply-To: elvis@hh.tabloid.org 

X-Mailer: Madam Zelda's Psychic Orb [version 3.7 PL92) 


Sorry I haven't been around lately. A few years back I checked into 
that ole heartbreak hotel in the sky, ifyaknowwhatImean. 
The Duke says “hi”. 

Elvis 





我 们 希望 程序 的 输出 结果 king. out 包括 下 面 的 内 容 : 


To: elvis@hh.tabloid.org (The King) 
From: jfriedl@regex.info (Jeffrey Friedl) 
Subject: Re: Be seein' ya around 


On Thu, Feb 29 2007 11:15 The King wrote: 

l> Sorry I haven't been around lately. A few years back I checked 
l> into that ole heartbreak hotel in the sky, ifyaknowwhatImean. 
|> The Duke says “hi”. 

|> Elvis 


现在 我 们 来 分 析 。 为 了 生成 新 的 header， 我 们 需要 知道 目标 地 址 ( 即 本 例 中 的 elvisehh. 
tabloid.org， 来自 原始 信息 中 的 Reply-To 字段 )， 收 件 人 的 姓名 (The King)， 我 们 自 
己 的 地 址 和 姓名 ， 以 及 主题 。 另 外 ， 为 了 生成 邮件 正文 的 导入 部 分 (introductory line)， 我 
们 还 需要 知道 原始 邮件 的 日 期 。 


这 些 工作 可 以 分 为 下 面 3 F: 


1. 从 原始 邮件 的 header 中 提取 信息 ， 

2. 生成 回复 邮件 header, 

3. 打印 原始 邮件 信息 ， 行 首 用 “1>” MH. 

这 样 考 虑 有 点 超前 了 一 一 在 设 有 决定 程序 如 何 读 人 数据 之 前 ， 就 关心 起 如 何 处 理 数据 了 。 
幸运 的 是 ,Perl 提供 了 神奇 的 “<> ”操作 符 。 在 应 用 到 变量 $variable 时 , 使 用 “$variable 


= <>"， 这 个 有 趣 的 结构 能 够 每 次 读 人 一 行 数据 。 输 入 的 数据 来 自命 令 行 中 Peri 脚本 之 后 列 
出 的 文件 名 〈 例 如 上 面 例子 中 的 king.in)。 


请 不 要 混 请 操作 符 <> 与 Shel 的 重 定向 符号 “> filename” RHE Perl 的 大 于 /小 于 号 。Perl 
中 的 <> 相 当 于 其 他 语言 中 的 getline() MR. 


idi 
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读 和 人 所 有 输入 数据 之 后 ，<> 很 方便 地 返回 未 定义 的 值 (作为 布尔 值 处 理 ) ， 所 以 整个 文件 可 
以 这 样 处 理 
while ($line = <>) { 


ACIS Line... 
} 


我 们 会 用 类 似 的 办 法 来 处 理 邮件 ， 但 是 邮件 本 身 的 性 质 决 定 了 我 们 必须 对 邮件 header 特殊 
处 理 。 第 一 个 空 行 之 前 的 信息 是 header， 之 后 的 则 是 正文 部 分 。 为 了 只 读 和 人 header， 我 们 可 
以 使 用 下 面 这 段 代 码 。 


# 处 理 header 
while ($line = <>) { 
if ($line =~ m/*\s*$/) { 
last; # 停止 while 搞 环 内 的 处 理 ， 跳 出 握 环 
} 
.. .处 理 header 信息 ..， 
} 
. . .处 理 邮件 内 的 其 他 信息 .,. 


sesers 


我 们 用 '“^\s*$, 来 检查 表示 邮件 header 结束 的 空 行 。 这 个 正则 表达 式 检查 的 是 ,当前 的 文本 
行 是 否 有 一 个 行 开头 (其 实 每 一 行 都 有 , 由 脱 字 符 匹 配 ), 然后 跟着 任意 数目 的 空白 字符 ( 尽 
管 我 们 并 不 期 望 有 任何 空白 字符 ) ， 然 后 字符 串 结 束 ( 注 3)。 关 键 词 last 会 跳出 while 循 
环 ， 停 止 处 理 header, 


所 以 ， 在 循环 内 部 ， 在 空 行 检测 之 后 ， 我 们 能 够 按照 自己 的 想法 来 处 理 header 的 每 一 行 。 
在 本 例 中 ， 我 们 希望 提取 信息 ， 例 如 邮件 的 主题 和 时 间 。 


要 提取 主题 ， 我 们 可 以 使 用 一 个 常见 的 技巧 ， 


if ($line z~ m/*Subject: (.*)/i) { 
$subject = $1; 
} 


这 段 代 码 尝试 匹配 一 个 以 “subject :*” 开 头 , 但 不 区 分 subject 大 小 写 的 字符 申 。 如 果 能 
够 匹配 ， 后 面 的 '.*, 匹配 这 一 行 的 其 他 部 分 。 因 为 “.*, 在 括号 中 ， 所 以 之 后 我 们 能 用 $1 来 
访问 邮件 的 主题 。 在 这 个 例子 中 ， 我 们 希望 把 它 保 存 到 变量 $subject 中 。 当 然 ， 如 果 正 则 
表达 式 无 法 匹配 这 个 字符 申 (大 多 数 情 况 下 都 不 能 ) ， 结 果 就 是 if 语句 返回 结果 为 false， 
$subject 变量 没有 变化 。 


注 3: 我 在 这 里 用 的 是 “字符 事 ”(string) 而 不 是 “ 行 ”(line) ， 因 为 虽然 对 本 例 来 说 这 不 是 一 个 
问题 ， 但 正则 表达 式 需要 处 理 的 可 能 是 一 个 包含 多 行文 本 的 字符 事 。 通 常 ， 脱 字条 和 美元 
符 只 匹配 整个 字符 事 的 开头 和 结尾 (在 本 章 后 面 我 们 会 遇 到 一 个 相反 的 例子 )。 无 论 如 何 ， 
此 处 这 种 区 别 并 不 重要 ， 因 为 根据 我 们 的 程序 ， 我们 知道 $line 的 内 容 不 会 多 于 一 行 。 
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关于 . *, 的 警告 


1 .xj 通常 用 来 表示 “一 组 任何 字符 ”(a bunch of anything) ， 因 为 点 号 可 以 匹配 任何 字 
H (在 某 些 工具 中 ， 不 包括 换行 竺 ) ， 而 星 号 表示 可 以 为 任意 数目 ， 但 并 非 必须 。.*i 


可 能 很 有 用 。 

不 过 ， 如 果 把 ' .xj 作为 整个 正则 表达 式 的 一 部 分 ， 而 用 户 又 不 真正 了 解 其 中 的 原理 ， 
就 可 能 陷入 某 些 隐藏 的 “陷阱 ”。 我 们 已 经 看 到 过 一 个 例子 (了 26)， 并 会 在 第 4 章 深 
入 讨论 这 个 话题 的 时 候 见 到 更 多 的 例子 (7164), 





我 们 可 以 用 同样 的 办 法 来 处 理 Date 和 Reply-To 字段 : 


if ($line =~ m/*Date: (.*)/i) { 
Sdate = $1; 


} 
if ($line =~ m/*Reply-To: (.*)/i) { 


Sreply_address = $1; 
} 


From: 所 在 的 行 稍微 麻烦 一 点 。 首 先 , 我 们 需要 找到 以 “From:” 开头 的 行 , 而 不 是 以 “From。 
开头 的 第 一 行 。 我 们 需要 的 是 : 
From: elvis@tabloid.org {The King) 


它 包含 了 邮件 的 发 送 地 址 ， 发 送 者 的 姓名 在 括号 内 ， 我 们 要 提取 的 是 姓名 (译注 1)。 


RMA From: Ase ,来 提取 发 送 地 址 。 你 可 能 猜 到 了 ,\s 匹配 的 是 所 有 的 非 空白 字符 
(749), 所 以 s+, 匹配 第 一 个 空白 之 前 的 文本 (或 者 目标 文本 末尾 之 前 的 所 有 字符 )。 在 
本 例 中 ， 就 是 邮件 的 发 送 地 址 。 匹 配 之 后 ， 我 们 和 希望 匹配 括号 内 的 文字 。 显 然 ， 此 处 也 需 
要 匹配 括号 本 身 。 我 们 用 \(, 和 "\) ;来 匹配 , 转 义 之 后 的 括号 不 再 具有 特殊 的 含义 。 在 括号 
内 , 我 们 希望 匹配 任何 字符 一 一 除了 括号 之 外 的 任何 字符 ,所 以 采用 O. E, FA 
组 的 元 字符 不 同 于 正则 表达 式 的 “普通 ”元 字符 ， 在 字符 组 内 部 ， 括 号 不 再 具有 特殊 含义 ， 
因此 也 不 需要 转 义 。 


综合 起 来 ， 我 们 得 到 : 


From:*(\s+)°\(([~^()]*)\)) 


其 中 的 括号 有 点 多 ， 初 看 起 来 不 太 好 懂 ， 图 2-4 解释 得 更 清楚 : 


译注 1: 一 般 情 况 下 ， 邮 件 应 当 回 复 到 “回复 地 址 "， 即 Reply-To 字段 的 内 容 ， 若 此 字段 不 存 
在 ， 则 回复 到 发 送 的 邮箱 ， 故 此 处 说 需要 提取 的 只 是 发 送 者 的 姓名 。 


L 
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字符 类 内 部 的 字符 ， 括 号 没有 特殊 含义 


保存 到 $1 保存 到 $2 





图 2-4: 该 套 的 括号 ，$1 和 $2 


如 果 图 2-4 的 正则 表达 式 能 够 匹配 ， 我 们 可 以 通过 $2 得 到 发 送 者 的 姓名 ， 从 $1 得 到 可 能 的 
回复 地 址 。 
if ($line =~ m/*From: (\s+) \(([*()]*)\)/i) { 
Sreply_address = $1; 


Sfrom_name = $2; 
} 


并 非 所 有 的 E-mail 信息 都 包含 Reply-To 字段 ， 所 以 我 们 把 $1 暂 定 为 回复 地 址 。 如 果 之 后 
出 现 了 $Reply-To 字段 ， 我 们 会 重 设 $reply_address。 综 合 起 来 就 得 到 : 

while ($line = < >) 

{ 


if ($line =~ m/*\s*$/ ) { # 如 果 存 在 空 行 
last; # 就 立即 结束 while MH 


if ($line =~ m/*Subject: (.*)/i) { 
$subject = $1; 


if ($line =~ m/*Date: (.*)/i) { 
$date = $1; 


if ($line =~ m/*Reply-To: (\s+)/i) { 
Sreply_address = $1; 


if ($line =~ m/*From: (\s+) \(((*()]*)\)/i) { 
S$reply_address = $1; 
$from_name = $2; 
} 
这 段 程序 检查 header 的 每 一 行 ， 如果 某 个 正则 表达 式 能 够 匹配 ， 则 设置 相应 的 变量 。header 
的 许多 行 无 法 由 这 些 正 则 表达 式 匹 配 ， 所 以 会 被 忽略 。 
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while 循环 结束 之 后 ， 我 们 就 能 够 生成 回复 邮件 的 header 了 (Ù 4): 


print “To: $reply_address ($from_name) \n’; 

print “From: jfriedl\@regex.info (Jeffrey Friedl) \n’; 

print “Subject: Re: $subject\n’; 

print “\n* ; # blank line to separate the header from message body. 


请 注意 ， 我 们 在 主题 之 前 加 上 了 Re: ， 表 示 这 是 一 封 回复 邮件 。 最 后 ， 在 header 之 后 ， 我 
们 列 出 原始 邮件 的 内 容 : 


print “On $date $from_name wrote:\n’; 


对 于 其 他 的 输入 信息 〈 也 就 是 原始 邮件 的 正文 部 分 ) ， 我 们 在 每 一 行 之 前 添加 “1>- ”提示 
符 : 
while ($line = < >) { 


print “I> $line’; 
} 


有 意思 的 是 ， 这 段 程序 也 可 以 用 另 一 种 方法 ， 使 用 正则 表达 式 来 加 入 引用 提示 符 : 


$line =~ s/*/|> /;3 

print $line; 
这 条 替换 命令 寻找 “, 在 每 个 字符 申 的 起 始 位 置 匹配 。 这 条 替换 命令 把 字符 串 开 头 那个 “不 
存在 的 字符 ”替换 ”为 “1>" ,其 实 并 设 有 替换 任何 字符 , 只 是 在 字符 串 的 开头 加 入 “1>…。 
在 本 例 中 这 样 做 有 点 滥用 的 嫌疑 了 ， 但 是 我 们 将 在 本 章 中 看 到 类 似 (但 更 有 用 ) 的 例子 。 


真实 世界 的 问题 ， 真 实 世 界 的 解法 


既然 摆 出 了 一 个 真实 世界 的 例子 ， 就 应 该 指出 这 个 解法 在 真实 世界 中 的 缺憾 。 我 已 经 说 过 ， 
这 些 例子 的 目的 在 于 展示 正则 表达 式 的 使 用 方法 ， 而 Perl 程序 不 过 是 展示 的 手段 。 我 使 用 
的 Perl 程序 并 不 一 定 使 用 了 最 有 效 或 者 最 好 的 解法 但是， 我 希望 它 能 说 明正 则 表达 式 的 
用 法 。 


同样 , 真实 世界 的 邮件 信息 比 这 个 简单 问题 中 的 邮件 信息 复杂 很 多 。From: 这 一 行 就 可 能 有 
许多 种 格式 ， 而 我 们 的 程序 只 能 处 理 一 种 。 如 果真 正 的 From; 这 一 行 无 法 匹配 我 们 的 模式 ， 
则 $from_name 变量 就 不 会 设置 ， 使 用 时 保持 在 未 定义 的 状态 (也 就 是 “没有 值 ”的 值 的 一 
种 )。 理 想 的 解决 办 法 是 修改 这 个 正则 表达 式 , 让 它 能 够 处 理 各 种 不 同 的 邮件 地 址 /姓名 格式 ， 


答 4: 在 Perl 的 正则 表达 式 新 双 引 号 内 的 字符 事 中 ， 大 多 数 “8@ ”部 必须 转 义 (777), 
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不 过 ， 作 为 第 一 步 ， 在 检查 原始 邮件 之 后 〈 生 成 回复 模板 之 前 ) ， 我 们 可 以 这 样 


if ( not defined(S$reply_address) 

or not defined($from_name) 

or not defined ($subject) 

or not defined($date) ) 
{ 

die “couldn't glean the required information!"*; 
} 


Perl 的 defined 函数 检查 一 个 变量 是 否 设 置 了 值 ， 而 aie 函数 用 来 发 出 错误 信息 ， 退 出 程 
序 。 


另 一 点 需要 考虑 的 是 ， 程 序 假设 From: 这 一 行 出 现在 Reply-To: 之 前 。 如 果 From: 出 现在 
之 后 ， 就 会 覆盖 从 Reply-To 取得 的 Sreply_adaress。 


真正 的 ”真实 世界 


发 送 电子 邮件 的 程序 有 许多 类 ， 每 类 程序 对 标准 的 理解 都 不 一 样 ， 所 以 处 理 电子 邮件 并 不 
是 件 简单 的 事情 。 我 曾经 想 用 Pascal 程序 来 处 理 电子 邮件 ， 但 我 发 现 ， 如 果 没 有 正则 表达 
式 ， 处 理 起 来 极其 困难 ， 困 难 到 我 决定 先 用 Pascal 写 一 个 类 似 Perl 的 正则 表达 式 包 ， 再 来 
做 其 他 事情 。 进 入 没有 正则 表达 式 的 世界 之 后 才 发 现 ， 自 己 已 经 习惯 正则 表达 式 的 功能 和 
便捷 了， 而 我 显然 不 希望 在 没有 正则 表达 式 的 世界 呆 太 久 。 


用 环视 功能 为 数值 添加 逗号 、 

Adding Commas to a Number with Lookaround 

大 的 数值 ， 如 果 在 其 间 加 入 逗号 ， 会 更 容易 看 懂 。 下 面 的 程序 : 
print “The US population is $pop\n’; 


可 能 输出 “The US population is 298444215”， 但 对 大 多 数 说 英语 的 人 来 说 ，“298,444,215” 
看 起 来 更 加 自然 。 用 正则 表达 式 该 如 何 做 呢 ? 


动脑 子 想 想 这 个 问题 ， 我 们 应 该 从 这 个 数 的 右边 开始 ， 每 次 数 3 位 数字 ， 如 果 左边 还 有 数 
字 的 话 ， 就 加 入 一 个 逗号 。 如 果 我 们 能 把 这 种 思路 直接 用 到 正则 表达 式 中 当然 很 好 ， 可 异 
正则 表达 式 一 般 都 是 从 左 向 右 工 作 的。 不 过 梳理 一 下 思路 就 会 发 现 ， 逗 号 应 该 加 在 “左边 有 
数字 ， 右 边 数字 的 个 数 正 好 是 3 的 倍数 的 位 置 "， 这 样 ， 使 用 一 组 相对 较 新 的 正则 表达 式 特 
性 一 一 它们 统称 为 “环视 (lookaround)” 一 一 轻松 地 解决 这 个 问题 。 


环视 结构 不 匹配 任何 字符 ， 只 匹配 文本 中 的 特定 位 置 ， 这 一 点 与 单词 分 界 符 、\bj、 销 点 ) 
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Al's: 相似 。 但 是 ， 环 视 比 它们 更 加 通用 。 


一 种 类 型 的 环视 叫 “ 顺 序 环 视 (lookahead)"， 作 为 表达 式 的 一 部 分 ， 顺 序 环视 顺序 (从 左 
至 右 ) 查看 文本 ， 尝 试 匹配 子 表达 式 ， 如 果 能 够 匹配 ， 就 返回 匹配 成 功 信息 。 肯 定型 顺序 
环视 (positive lookahread) 用 特殊 的 序列 '(?=…) ,来 表示 , 例如 '(?=\a)，,, 它 表示 如 果 当 前 
位 置 右边 的 字符 是 数字 则 匹配 成 功 。 另 一 种 环视 称 为 逆序 环视 ， 它 逆序 (从 右 向 左 ) 查看 
文本 。 它 用 特殊 的 序列 '(?<=…) ,表示 ， 例 如 和 (?<=\d);， 如 果 当 前 位 置 的 左边 有 一 位 数字 ， 
则 匹配 成 功 (也 就 是 说 ， 紧 跟 在 数字 后 面 的 位 置 )。 


环视 不 会 “占用 ”字符 


在 理解 顺序 环视 和 其 他 环视 功能 时 需要 特别 注意 一 点 ， 即 在 检查 子 表达 式 能 否 匹 配 的 过 程 
中 ， 它 们 本 身 不 会 “占用 ”任何 文本 。 这 可 能 有 点 难 懂 ， 所 以 我 准备 了 下 面 的 例子 。 正 则 
表达 式 Jeffrey 匹配 : 


“by Jeffrey Friedl. 


但 同样 的 正则 表达 式 ， 如 果 使 用 顺序 环视 功能 ， 即 "(?=zeffrey),， 则 匹配 标记 的 位 置 ， 
«DY Jeffrey Friedl. 

顺序 环视 会 检查 子 表达 式 能 否 匹 配 ， 但 它 只 寻找 能 够 匹配 的 位 置 ， 而 不 会 真正 “占用 ”这 

些 字符 。 不 过 ， 把 顺序 环视 和 真正 匹配 字符 的 部 分 一 -例如 Jeff 结合 起 来 ， 我 们 能 

得 到 比 单纯 的 Jeff 更 精确 的 结果 。 结合 之 后 的 正则 表达 式 是 !(?=zeffrey)Jeff, 下 一 页 

的 图 说 明 ， 它 只 能 匹配 “Jeffrey” 这 个 单词 中 的 “Jeff”" 。 它 能 够 匹配 : 


„by Jeffrey Friedl. 


在 此 处 它 的 匹配 和 单纯 的 ‘Jeff; 一 样 ， 但 是 下 面 的 情况 不 会 匹配 : 
“by Thomas Jefferson 
Jeff: 自己 能 够 匹配 这 一 行 , 但 是 因为 不 存在 !(?=Jeffrey)) 能 够 匹配 的 位 置 , 整个 表达 式 


就 无 法 匹配 。 现 在 环视 的 好 处 还 看 得 不 是 很 明显 ， 但 是 请 不 用 担心 ， 现 在 我 们 只 需要 关心 
顺序 环视 的 原理 一 一 我 们 很 快 会 遇 到 能 够 充分 展现 其 价值 的 例子 , 。 


受 此 启发 , 你 或 许 会 发 现 (?=Jeffrey)Jeffj 和 'eff(?=rey), 是 等 价 的 (能 够 发 现 这 一 点 
的 读者 很 了 不 起 )。 它 们 都 能 匹配 “Jeffrey” 这 个 单词 中 的 “Jeff" 。 


我 们 还 需要 认识 到 , 它们 结合 的 顺序 非常 重要 。'Jeff (?=Jeffrey) ,不 会 匹配 上 面 的 任何 一 
个 例子 ， 而 只 会 匹配 后 面 紧 跟 有 “Jeffrey” 的 “Jeff”。 
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真正 匹配 的 字符 


师 序 环视 的 结果 wy 


测试 顺序 环视 时 匹配 的 文本 = 





2-5; !(?=Jeffrey)Jeff 的 匹配 


还 有 一 点 很 重要 , 即 环视 结构 使 用 特殊 的 表示 法 。 就 像 45 页 介绍 的 非 捕获 型 括号 “(?:…)” 
一 样 ， 它 们 使 用 特殊 的 字符 序列 作为 自己 的 “ 开 插 号"。 这 样 的 “ 开 括 号 ”序列 有 许多 种 ， 
但 它们 都 以 两 个 字符 “(?” 开 头 。 问 号 之 后 的 字符 用 来 标志 特殊 的 功能 。 我 们 曾经 看 到 过 
“分 组 但 不 捕获 ”的 “(?:…)”、 顺 序 环视 的 “(?=…)”， 以 及 逆序 环视 的 “(?<=…) ”结构 ， 
下 面 还 会 看 到 更 多 。 


再 来 几 个 顺序 环视 的 例子 


我 们 马上 就 要 在 数字 间 插 入 逗号 了 ， 不 过 现在 先 多 看 几 个 环视 的 例子 。 首 先 我 们 要 把 所 有 
ff “Jeffs” $k “Jeff's”, 不 使 用 环视 也 能 很 容易 做 到 这 一 点 , 即 e/Jeffs/Jeff's/g (id 
住 ，/g 表示 “全 局 替换 ”， 了 51)。 更 好 的 办 法 是 添加 单词 分 界 符 铺 点 : 8/\bJeffs 
\b/Jeff's/g。 


我 们 也 可 以 使 用 更 复杂 的 表达 式 ， 例 如 e/\b(Jeff) (s) \b/$1'$2/g, 但 是 这 样 简单 的 任务 
似乎 不 值得 这 么 麻烦 ， 所 以 我 们 暂时 仍然 使 用 e/\bJeffs\b/Jeff's/g。 现 在 来 看 另 一 个 
正则 表达 式 


S/\bJeff(?=s\b)/Jeff'/g 


两 者 唯一 的 区 别 在 于 ， 最 后 的 s\b, 现在 位 于 顺序 环视 结构 。 下 一 页 的 图 2-6 说 明了 这 个 正 
则 表达 式 的 匹配 情况 。 正 则 表达 式 变化 之 后 ，replacement 字符 串 中 的 “s” 也 相应 地 被 删 去 
T. 


Jeff 匹配 之 后 , 接 下 来 尝试 的 就 是 顺序 环视 。 只 有 当 's\b, 在 此 位 置 能 够 匹配 时 (也 就 是 
‘Jett’ 之 后 紧 跟 一 个 “s” 和 一 个 单词 分 界 符 ) 整个 表达 式 才能 匹配 成 功 。 但 是 , 因为 s\b， 
只 是 顺序 环视 子 表达 式 的 一 部 分 , 所 以 它 匹配 的 “s ”不 属于 最 终 的 匹配 文本 。 记 住 ，Jeffl 
确定 匹配 文本 ， 而 顺序 环视 只 是 “选择 ”一 个 位 置 。 在 此 处 使 用 顺序 环视 的 唯一 好 处 在 于 ， 
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图 2-6: \bJeff(?=s\b), 的 匹配 


它 保证 表达 式 不 会 匹配 任意 的 情况 。 或 者 从 另 一 个 角度 来 说 就 是 ， 它 容许 我 们 在 只 匹配 
'Jeffj 之 前 检查 整个 Jeffs 


为 什么 不 在 最 终 匹 配 的 结果 中 包含 顺序 环视 匹配 过 的 文本 呢 ? 通 常 ， 这 是 因为 我 们 希望 在 
表达 式 的 后 面部 分 ， 或 者 在 稍 后 应 用 正则 表达 式 时 ， 再 次 检测 这 段 文本 。 过 几 页 SRA 
真正 开始 解决 在 数值 中 加 入 逗号 的 问题 时 ， 就 会 明白 它 的 作用 。 但 是 在 上 面 的 例子 中 ,使 
用 顺序 环视 的 原因 在 于 : 我 们 希望 检查 整个 'Jeffs,/， 因 为 这 是 我 们 希望 加 入 撤 号 的 地 方 ， 
但 是 如 果 匹 配 的 只 是 “Jeff' ， 就 能 减 小 replacement 字符 串 的 长 度 。 因 为 “s” 不 再 是 最 终 
匹配 结果 的 一 部 分 , 也 就 不 再 是 replacement 的 一 部 分 , 所 以 我 们 可 以 从 replacement 字符 串 
中 去 掉 它 。 


所 以 ， 尽 管 这 两 种 办 法 所 用 的 正则 表达 式 和 replacement 字符 串 各 不 相同 ， 它 们 的 结果 却 是 
一 样 的 。 现 在 看 起 来 ， 这 些 应 用 正则 表达 式 的 技巧 都 有 些 花 架子 的 味道 ， 但 是 我 这 么 做 是 
有 目的 的 ， 请 继续 往 下 看 。 


比较 上 面 的 两 个 例子 ， 最 后 的 sM “E (main)” 表 达 式 中 移 到 了 顺序 环视 部 分 中 。 如 果 
我 们 把 开头 的 "reff) 照样 搬 到 逆序 环视 中 呢 ? 结果 是 (?<=\bJeff) (?=s\b) 它 的 意思 是 ， 
找到 这 样 一 个 位 置 ， 它 紧 接 在 “Jeff” 之 后 , E ‘s 之 前 。 这 正好 就 是 我 们 希望 插入 撤 号 
的 地 方 。 所 以 ， 我 们 这 样 震 换 : 


8/(?<=\bJeff) (?=s\b)/'/g 


这 个 表达 式 很 有 意思 ， 它 实际 上 并 没有 匹配 任何 字符 ， 只 是 匹配 了 我 们 希望 插入 撤 号 的 位 
置 。 在 这 种 情况 下 ,我 们 并 没有 “替换 ”任何 字符 ， 而 只 是 插入 了 一 个 撤 号 。 图 2-7 作 了 说 
明 。 在 几 页 以 前 ， 我 们 看 到 过 这 样 的 替换 ， 使 用 se/^/1>'"/ 在 行 首 加 入 “1>”。 
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"see Jeffs book" 


测试 顺序 环视 时 匹配 的 文本 
逆序 环视 的 结果 





图 2-7: '(?<=\bJeff)(?=s\b), 的 匹配 


如 果 我 们 把 两 个 环视 结构 调换 位 置 ， 这 个 正则 表达 式 的 功能 会 改变 吗 ? 也 就 是 说 ， 
s/(?=s\b)(?<=\bJeff)/'/g 的 结果 如 何 ? 令 请 翻 到 下 一 页 查看 答案 。 


“Jeffs” ERRA 表 2-1 总 结 了 我 们 见 过 的 把 Jeffs 替换 为 Jeff's 的 几 种 办 法 。 
表 2-1: 解决 “Jeffs” 问 题 的 几 种 办 法 


RAS ts ey ee ee 
RAE, REH, HED, 解决 此 类 问题 最 容易 想 
8/\bJeffs\b/Jeff's/g 到 的 办 法 ， 未 使 用 环视 ， 正 则 表达 式 “ 占 用 ”整个 
‘Jeffs’, 
nt (a) Yossi re 只 增加 了 复杂 程度 ， 没 有 好 处 ， 正 则 表达 式 占用 束 
个 ‘Jeffs’, 
“a l 并 没有 占用 “s" ， 除 了 展示 顺序 环视 之 外 ， 没 什么 
8/\bJeff (?=s\b)/Jeff'’'/g 实用 价值 。 
并 没有 “占用 ”任何 文本 ， 同 时 使 用 顺序 环视 和 北 
s/(2?<=\bJeff) (?=s\b)/"/g 序 环视 匹配 需要 的 位 置 ， 即 撤 号 插入 的 位 置 。 非 常 
适 于 讲解 环视 。 
与 上 一 个 表达 式 完全 相同 ， 只 是 颠倒 了 两 个 环视 结 
8/(?=s\b) (?<=\bJeff)/"/g 构 。 因 为 它 并 没有 占用 任何 字符 ， 所 以 变换 顺序 并 
没有 影响 。 


回 到 “在 数值 中 加 入 逗号 ”之 前 ， 我 先 提 一 个 关于 这 些 表达 式 的 问题 。 如 果 我 希望 找到 不 
区 分 大 小 写 的 “Jeffs”"， 在 替换 之 后 仍然 保持 原来 的 大 小 写 ， 使 用 /i 能 实现 这 个 目标 吗 ? 
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测验 答案 


+ 63 页 小 测验 的 答案 

s/(?=s8\b) (?<=\bdeff)/'/g 的 结果 是 什么 ? 

在 本 例 中 ,'(?=s\b)) 和 '(?<=\bJeff); 的 先后 顺序 是 无 关 紧 要 的 。 无 论 是 “ 先 检查 左 
边 ， 再 检查 右边 ”还 是 相反 ， 关 键 是 ， 在 同一 个 位 置 两 边 的 检测 必须 都 能 成 功 ， 整 个 
匹配 才 算 成 功 。 例 如 , ASHE “Thoma seff erson 中 ， 1(?=s\b)j 和 5!(?<=\bJeff)) 


部 能 匹配 (在 标记 的 两 个 位 置 ), 但 是 这 两 个 位 置 并 不 重合 ， 所 以 这 两 个 环视 的 结合 体 
不 能 成 功 匹 配 。 

“两 者 的 结合 ” (combanation of the two) 虽然 有 些 模糊 ， 但 用 来 描述 这 个 问题 并 没有 
问题 ， 因 为 在 此 处 它 的 意义 很 明显 。 不 过 ， 有 了 时候， 正则 引 掌 应 用 表达 式 的 方式 可 能 
并 不 这 么 明显 。 因 为 引 掌 的 工作 原理 对 正则 表达 式 的 实际 意义 有 直接 的 影响 ， 详 细 讲 
解 见 第 4 章 。 





提示 : 至 少 有 两 个 表达 式 无 法 做 到 这 一 点 。 仿 请 思考 这 个 问题 ， 答 案 见 下 页 。 


回 到 去 号 的 例子 … 


你 可 能 已 经 意识 到 了 “Je 扩 ”的 例子 和 插入 逗号 的 例子 之 间 存 在 某 种 联系 ,因为 它们 都 需要 
通过 正则 表达 式 寻 找到 某 个 位 置 ， 然 后 插入 文本 。 


我 们 已 经 知道 我 们 希望 插入 逗号 的 位 置 必须 满足 “左边 有 数字 ， 右 边 数 字 的 个 数 正好 是 3 
的 倍数 " 。 第 二 个 要 求 用 逆序 环视 很 容易 解决 ， 左 边 只 要 有 一 位 数字 就 能 够 满足 “左边 有 数 
字 ” 的 要 求 ， 这 就 是 "(?<=\a) j。 


现在 来 看 “右边 数字 的 个 数 正 好 是 3 的 倍数 "。3 位 数字 当然 可 以 表示 为 ddd, iI 
以 用 (…) + 来 表示 (3 的 )“ 若 干 倍 ”, 再 添加 一 个 '$, 来 确保 这 些 数字 后 面 不 存在 其 他 字符 
(保证 “正好 ”)。 孤 立 的 '(\d\a\d)+$) 匹配 从 字符 串 末尾 向 前 数 的 3x 位 数字 ， 但 是 加 入 
(?=…) 1 的 环视 结构 之 后 ， 它 就 能 匹配 “右边 数字 的 个 数 正好 是 3 的 倍数 的 位 置 "， 例 如 
“123 .456,789” 中 的 标记 人 位置。 实际 上 并 不 是 所 有 这 些 位 置 都 符合 要 求 一 一 我 们 不 希望 
在 第 一 个 数字 之 前 加 入 去 号 一 一 所 以 我 们 添加 ( 2<=\ a) ,来 限定 匹配 的 位 置 。 
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代码 段 如 下 : 


Spop =~ S/(?<=\d) (?=(\d\d\d)+$)/,/g; 

print “The US population is $pop\n’; 
确实 输出 了 我 们 期 望 的 “The US population is 298,444,215”, 不 过 ， 有 点 奇怪 的 是 , '\a\a\a; 
两 边 的 括号 是 捕获 型 括号 。 但 是 在 这 里 ， 我 们 只 用 它 来 分 组 ， 把 加 号 作用 于 3 位 数字 ， 所 
以 不 需要 把 它们 捕获 的 文本 保存 到 $1 中 。 


我 可 以 使 用 第 45 页 补充 内 容 介 绍 的 非 捕 获 型 括号 :'(?:…),， 得 到 和 (?<=\ad) (?=(?:\a 
\G\G)+$) J。 这样 做 的 好 处 在 于 ， 见 到 这 个 正则 表达 式 的 人 不 会 担心 与 捕获 型 括号 关联 的 $1 
是 否 会 被 用 到 ， 而 且 它 的 效率 更 高 ， 因 为 引擎 不 需要 记忆 捕获 的 文本 。 另 一 方面 ， 即 使 是 
(力也 有 点 难以 看 懂 ， 更 不 用 说 (2-0 了， 所 以 我 在 这 里 选择 更 清晰 的 表达 方式 。 构 建 
正则 表达 式 时 ， 经 常 需要 权衡 这 两 个 因素 。 从 我 个 人 来 说 ， 我 愿意 在 适用 的 所 有 地 方 使 用 
(3?:…) Js， 但 是 在 讲解 其 他 知识 时 选择 更 清晰 的 表达 方式 (也 是 本 书 中 的 常见 情况 )。 


单词 分 界 符 和 否定 环视 


现在 假设 ， 我 们 希望 把 这 个 插入 逗号 的 正则 表达 式 应 用 到 很 长 的 字符 串 中 ， 例 如 : 
$text = “The population of 298444215 is growing’; 


$text =~ S/(?<=\d) (?=(\d\d\d)+$)/, /g; 

print “$text\n"; 
很 显然 程序 没有 结果 ,因为 S 要 求 字 符 串 以 3 的 倍数 位 数字 结尾 。 我 们 不 能 只 去 掉 这 里 的 
S$5， 因 为 这 样 会 从 左边 第 一 位 数字 之 后 ， 右 边 第 三 位 数字 之 前 的 每 一 个 位 置 插入 逗号 一 一 
结果 是 “… of 2,9,8,4,4,4,215 …”| 


可 能 初 看 起 来 这 问题 有 些 杯 手 ， 但 我 们 可 以 用 单词 分 界 符 \bi 来 替换 Si RERI ERK 
只 是 数字 ，Perl 的 “单词 ”概念 也 能 够 解决 这 个 问题 。 就 像 w (749) 一 样 ，Perl 和 其 他 
语言 都 把 数字 、 字 母 和 下 画 线 当 作 单 词 的 一 部 分 。 结 果 ， 单 词 分 界 符 的 意思 就 是 ， 在 此 位 
置 的 一 侧 是 单词 〈 例 如 数字 ) ， 另 一 侧 不 是 〈 例 如 行 的 末尾 ， 或 者 数字 后 面 的 空格 ) 。 


这 个 “一 侧 如 此 这 般 ， 另 一 侧 如 此 那 般 ” 听 起 来 很 耳 熟 ， 对 吗 ? 因为 这 正 是 我 们 在 “Jeffs” 
例子 中 所 做 的 。 区 别 之 一 在 于 ， 有 一 侧 必须 使 用 否定 的 匹配 。 这 样 看 来 ， 迄 今 为 止 我 们 用 
到 的 顺序 环视 和 逆序 环视 应 该 被 称 作 肯 定 顺 序 环视 (positive lookahead) 和 肯定 送 序 环视 
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测验 答案 


o 第 64 页 的 测验 答案 

在 使 用 /i 时 ， 哪 些 办 法 会 保留 原来 文本 的 大 小 写 ? 

为 了 保留 大 小 写 ， 要 么 仅仅 替换 被 占用 的 字符 (而 不 是 任何 情况 下 都 插入 Jeff's’), 
要 么 不 占用 任何 字符 。 表 2-1 中 的 第 二 个 表达 式 采 取 了 第 一 种 思路 ， 匹 配 占 用 的 字符 ， 
用 $1 和 $2 把 它们 替换 回来 。 后 两 种 解法 选择 了 “不 占用 任何 字符 ”的 思路 。 因 为 它们 
不 占用 任何 字符 ， 所 以 不 需要 保留 任何 文本 。 

第 一 和 第 三 种 解法 使 用 硬 编码 的 replacement 字符 事 。 如 果 使 用 /i， 他们 不 会 保留 原来 
的 大 小 写 信息 。 它 们 分 别 把 JEFFS 错误 地 替换 为 Jeff's Fo Jeff's, 





(positive lookbehind) 。 因 为 它们 成 功 的 条 件 是 子 表达 式 在 这 些 位 置 能 够 匹配 。 表 2-2 告诉 
我 们 ， 正 则 表达 式 还 提供 了 相对 应 的 否定 顺序 环视 和 和 否定 逆序 环视 。 从 名 字 就 能 看 出 ， 它 
们 成 功 的 条 件 是 子 表达 式 无 法 匹配 。 


表 2-2: 四 种 类 型 的 环视 








(oS LTS ， 
> eh -及 oo} e 
BA A ai 


子 表达 式 能 够 匹配 左 侧 文本 

子 表达 式 不 能 匹配 左 侧 文本 
子 表达 式 能 够 匹配 右 侧 文本 
子 表 达 式 不 能 匹配 右 侧 文本 


所 以 , 如 果 单 词 分 界 符 的 意思 是 :一 侧 是 \w 而 另 一 侧 不 是 \w, 我 们 就 能 用 (?<!\w) (?=\w)， 
来 表示 单词 起 始 分 界 符 ， 用 '(?<=\w) (?1\w) 表示 单词 结束 分 界 符 。 把 两 者 结合 起 来 ， 
((?<!\w) (?=\w)1(?<=\w) (2!\w) ) ,就 等 价 于 by。 在 实践 中 ， 如 果 语 言 本 身 支持 \b (\b 
更 直接 ， 效 率 也 更 高 )， 这 样 做 有 点 多 此 一 举 , 但 是 可 能 的 确 有 地 方 需要 用 到 这 两 个 单独 的 
多 选 分 支 (7134), 


对 我 们 的 逗号 插入 问题 来 说 , 我 们 真正 需要 的 是 '(?!\d), 来 标记 3 位 数字 的 起 始 计数 位 置 。 
我 们 用 它 来 取代 "\b, 或 者 '$/， 得 到 : 
$text =~ s/(?<=\d) (?=(\d\d\d)+(?!\d))/,/g; 


这 个 表达 式 在 处 理 类 似 “…tone of 12345Hz” 的 文本 时 效果 很 好 不幸 的 是 ， 它 同样 会 匹配 
“…the 1970s …” 中 的 年 份 。 实 际 上 ， 我 们 根本 不 希望 这 里 的 正则 表达 式 能 够 匹配 “…in 










肯定 弟 序 环视 
否定 北 序 环视 
肯定 顺序 环视 
否定 顺序 环视 
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1970…"。 所 以 ， 我 们 必须 知道 期 望 用 正则 表达 式 处 理 的 文本 ， 以 及 开发 的 程序 适合 解决 什 
么 样 的 问题 (如 果 数据 包含 年 份 信息 ， 这 个 正则 表达 式 可 能 就 不 适合 )。 

在 关于 单词 分 界 符 和 不 希望 匹配 的 字符 的 讨论 中 ， 我 们 使 用 了 否定 顺序 环视 ,“(?!\w) ,或 
UPNA) 1 你 可 能 还 记得 第 49 页 出 现 的 表示 “ 非 数字 "的 字符 "\Di, 认为 它 可 以 取代 '(?1\a) 1。 
这 并 不 正确 。 记 住 , \D, 的 意思 是 ,“ 某 个 不 是 数字 的 字符 ",“ 某 个 字符 ”是 必须 的 ， 只 是 
它 不 能 为 数字 。 如 果 在 搜索 的 文本 中 ， 数 字 之 后 没有 字符 , \D 是 无 法 匹配 的 (在 第 12 页 
的 补充 内 容 中 我 们 见 到 过 类 似 的 情况 )。 


不 通过 逆序 环视 添加 逗号 


逆序 环视 和 顺序 环视 一 样 ， 所 获 的 支持 十 分 有 限 (使 用 也 不 广泛 )。 顺 序 环视 比 逆序 环视 早 
出 现 几 年 ， 尽管 Perl 现在 两 者 都 支持 ， 许 多 其 他 语言 却 不 是 这 样 。 所 以 ， 想 一 想 不 用 逆序 
环视 来 解决 添加 逗号 的 问题 可 能 更 有 意义 。 来 看 下 面 的 表达 式 : 


$text =~ S/(\d) (?=(\d\d\d)+(?!\d)/ $1,/g; 
Me Le) 


它 与 之 前 的 表达 式 的 差别 在 于 ， 开 头 的 仆 d 所 处 的 肯定 逆序 环视 变 成 了 捕获 型 括号 ， 
replacement 字符 串 则 在 逗号 之 前 加 入 了 相应 的 S1 。 


如 果 我 们 连 顺 序 环 视 也 不 用 昵 ? 我 们 可 以 用 、\b 取代"'(?:\dj， 但 这 个 消除 逆序 环视 的 技巧 
是 否 对 剩 下 的 顺序 环视 有 效 呢 ? 也 就 是 说 ， 下 面 的 办 法 可 行 吗 ? 


$text =~ e/(\d) ((\d\d\d)+\b) /$1,$2/g; 


4 请 翻 到 下 页 查看 答案 。 


Text-to-HTML 转换 


Text-to-HTML Conversion 


现在 我 们 写 一 个 把 Text (XÆ) 转换 为 HTML ( 超 文 本 ) 的 小 工具 ， 如 果 要 处 理 所 有 的 
情况 ， 程 序 将 非常 难 写 ， 所 以 现在 我 们 只 写 一 个 用 于 教学 的 小 工具 。 


在 目前 我 们 看 过 的 所 有 例子 中 ， 作 为 正则 表达 式 应 用 对 象 的 变量 都 只 包含 一 行文 本 。 对 这 
个 例子 来 说 ， 把 我 们 需要 转换 的 所 有 文本 放 在 同一 个 字符 串 中 比较 方便 。 在 Perl 中 ， 我 们 
可 以 很 容易 地 这 样 做 : 


undef $/; # 进入 "file-slurp” (文件 读 取 ) BA 
$text = <>; # 读 入 命令 行 中 指定 的 第 一 个 文件 
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测验 答案 


+ 67 页 问题 的 答案 
$text =~ s/(\d) ((\d\d\d)+\b)/$1,$2/g; BS ARF + Bik $4? 


结果 并 非 我 们 的 期 望 。 得 到 的 是 类 似 “281,421906” 的 字符 事 。 这 是 因为 ‘(\d\d\d)+] 
匹配 的 数字 属于 最 终 匹 配 文本 ， 所 以 不 能 作为 “未 匹配 的 ”部 分 ， 供 /1g 的 下 一 次 匹配 
ik AAR A. 

RRR, F-KHRRSME-KERMHAAABER, ATAA, A 
插入 过 号 以 后 ， 还 能 够 继续 检查 这 个 数值 ， 以 决定 是 否 需要 再 插入 过 号 。 但 是 ， 在 这 
个 例子 中 ， 重 新 开始 的 起 点 是 整个 数值 的 末尾 。 使 用 顺序 环视 的 意义 在 于 ， 检 查 某 个 
位 置 ， 但 检查 时 匹配 的 字符 并 不 算 在 (RH) “匹配 的 字符 事 ” 内 。 

实际 上 ， 这 个 表达 式 仍然 可 以 用 来 解决 这 个 问题 ， 但 正则 表达 式 必 须 由 宿主 语言 反复 
调用 ， 例 如 通过 一 个 while 特 环 ， 每 次 检查 的 都 是 上 次 修改 后 的 字 待 事 。 每 次 替换 操 
作 都 会 添加 一 个 过 号 (对 目标 字符 事 中 的 每 个 数值 都 是 如 此 ， 因 为 /g HHA), FR 
是 一 个 例子 : 

while ( $text =~ s/(\d)((\d\d\d)+\b)/$1,$2/q ) { 


# 循环 内 不 用 进行 任何 操作 一 一 我 们 希望 的 是 重复 这 个 搞 环 ， 直 到 匹配 失败 
} 





如 果 我 们 的 样本 文件 包含 3 个 短 行 : 
This is a sample file. 


It has three lines. 
That's all 


变量 $text 的 内 容 就 是 : 
This is a sample file. It has three lines. Ñ That’s all 
在 某 些 平台 上 ， 也 可 能 是 : 
This is a sample file. 园 加 It has three lines. 团 各 That's 2114 A) 


这 是 因为 大 多 数 系统 采用 换行 符 作为 一 行 的 终结 符 ， 而 某 些 系 统 〈 主 要 是 Windows) 使 用 
回 车 /换行 的 结合 体 。 我 们 会 确保 这 个 简单 的 工具 能 应 付 这 两 种 情况 。 


处 理 特 殊 字符 


首先 我 们 需要 确保 原始 文本 中 的 “& 、 “<” 和 “> ”字符 “不 会 出 错 "， 把 它们 转换 为 对 应 
的 HTML 编码 ， 分 别 是 “samp”、 ‘alt’ # ‘sgt’, E HTML 中 这 些 字 符 有 特殊 的 含义 ， 


if 
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编码 不 正确 可 能 会 导致 显示 错误 ,我 称 这 种 简单 的 转换 为 “为 HTML 而 加 工 (cooking the text 
for HTML)”， 它 的 确 非常 简单 : 

Stext =- 8/&/&amp;/g; # 保证 基本 的 HTML... 

$text =~ s/</&lt;/g; # .. 字符 & <, and >.. 

$text =~ 8/>/&gt;/g; # .. 转 搁 后 不 出 错 
请 注意 ， 我 们 使 用 了 /g 来 对 所 有 的 目标 字符 进行 替换 (如 果 不 用 /g， 就 只 会 替换 第 一 次 出 
现 的 特殊 字符 )。 首 先 转换 g 是 很 重要 的 ， 因 为 这 三 者 的 replacement 中 都 有 “sx ”字符 。 


分 隔 段 落 


接 下 来 我 们 用 HTML tag 中 表示 分 段 的 <p> 来 标记 段落 。 识 别 段落 的 简单 办 法 就 是 把 空 行 作 
为 段落 之 间 的 分 隔 。 搜 索 空 行 的 办 法 有 很 多 ， 最 容易 想到 的 是 : 


$text =~ s8/°S/<p>/g; 


它 可 以 匹配 “ 行 末尾 紧 随 行 开头 的 位 置 "。 确 实 ， 我们 已 经 在 第 10 页 看 到 , 在 egrep 之 类 的 
工具 中 这 样 行 得 通 ， 因 为 其 中 被 检索 的 文本 通常 只 包含 逻辑 上 的 一 行文 本 。 在 Perl 中 也 同 
样 有 效 ， 对 于 之 前 看 到 过 的 E-mail 的 例子 ， 我 们 知道 每 一 个 字符 串 只 包含 一 个 逻辑 行 。 


但 是 , 我 已 经 在 第 55 页 的 脚注 中 提 到 过 ,和 $ 通常 匹配 的 不 是 逻辑 行 的 开头 和 结尾 , 而 
是 整个 的 字符 串 的 开头 和 结束 位 置 〈 注 5)。 所 以 ， 既 然 目标 字符 串 中 有 多 个 逻辑 行 ， 就 需 
要 采取 不 同 的 办 法 。 


幸好 , 大 多 数 支 持 正则 表达 式 的 语言 提供 了 一 个 简单 的 办 法 , 即 “增强 的 行 锚 点 ”(enhanced 
line anchor) 匹配 模式 , 在 这 种 模式 下 ,“^! 和 '$, 会 从 字符 申 模式 切换 到 本 例 中 需要 的 逻辑 行 
模式 。 在 Perl 中 ,使 用 /m 修饰 符 来 选择 此 模式 : 


$text =~ e/*S/<p>/mg; 


请 注意 这 里 同时 使 用 了 /m 和 /gs( 你 可 以 以 任何 顺序 排列 需要 使 用 的 多 个 修饰 符 )。 在 下 一 章 ， 
我 们 会 看 到 其 他 语言 是 如 何 处 理 修饰 符 的 。 


所 以 ， 如 果 我 们 从 Stext 的 “…chapter .四 A Thus…” 开 始 , 会 得 到 期 望 的 “…chapter. 
<p> Ñ] Thus…”。 


不 过 ， 如 果 在 “ 空 行 ”中 包含 空格 符 或 者 其 他 空白 字符 ， 这 么 做 就 行 不 通 。 为 了 处 理 空 白 
字符 , BANE sss, 或 者 是 “^["\t\r]*$, 来 匹配 某 些 系 统 在 换行 符 之 前 的 空格 符 、 制 表 





注 5: 实际 上 ,5!$ 通 常 比 简单 的 “字符 事 结 尾 ” 要 更 复杂 些 ， 尽 管 对 本 例 中 这 并 不 重要 。 详 细 信 
息 请 阅读 第 129 页 关于 行 结束 锚 点 的 讨论 。 


iii 


www.TopSage.com 





70 第 2 章 : 入 门 示例 拓展 


符 或 者 回 车 符 。 这 两 个 表达 式 与 “5$ 是 完全 不 同 的 ， 因 为 它们 确实 匹配 了 一 些 字符 , 而 “$， 
只 匹配 位 置 。 不 过 ， 因 为 在 本 例 中 我 们 不 需要 这 些 空格 符 、 制 表 符 和 回 车 符 ， 匹 配 〈 然 后 
用 分 段 tag 来 替换 ) 这 些 字符 不 会 带 来 任何 问题 。 


如 果 你 还 记得 第 47 页 的 \s,/， 你 可 能 会 想到 "^\s*$,， 就 像 我 们 在 第 55 页 E-mail 的 例子 中 
所 用 的 那样 。 如 果 用 \s; 取 代 'i*\t\r]1;， 因 为 \'s; 能 够 匹配 换行 符 ， 所 以 整个 表达 式 的 意 
义 就 不 再 是 “寻找 空 行 及 只 包括 空白 字符 的 行 ”， 而 是 “寻找 连续 、 空 行 和 只 包括 空白 字符 
的 行 的 结合 "。 也 就 是 说 ， 如 果 我 们 找到 多 个 连续 的 这 样 的 文本 行 ， 一 个 “^\s*$, 就 能 够 匹 
配 它们 。 这 样 的 好 处 在 于 , 只 会 留 下 一 个 <p>, 而 不 是 像 以 前 那样 有 多 少 空 行 就 留 下 多 少 <p>。 


所 以 ， 如 果 $text 有 这 样 的 字符 串 
-~with.& * & Therefore- 


RHA: 
$text =~ 8/^[ \t\r]*$/<p>/mg; 
结果 就 是 
with. <p> N <p> AJ <p> N Therefore… 


不 过 ， 如 果 我 们 用 : 
$text =- 8/^\s*$/<p>/mg; 


“with.® <p> & Therefore: 


所 以 ， 在 最 终 的 程序 中 ， 我 们 会 使 用 “^\s*Si。 


将 E-mail 地 址 转换 为 超 链 接 形式 


Text-to-HTML 转换 的 下 一 步 是 识别 出 E-mail 地 址 ， 然 后 把 它们 转换 为 “mailto” 链 接 。 例 
an, jfriedl@oreilly.com 会 被 转换 为 <a"href=*mailto:jfriedleoreilly.com">jfriedl 


@oreilly.com</a>, 

用 正则 表达 式 来 匹配 或 者 验证 E-mail 地 址 是 常见 的 情况 。E-mail 地 址 的 标准 规范 异常 繁杂 ， 
所 以 很 难 做 到 百分之百 的 准确 ,但 是 一 些 简 单 的 正则 表达 式 就 可 以 应 付 遇 到 的 大 多 数 E-mail 
地 址 。E-mail 地 址 的 基本 形式 是 username@hostname。 在 思考 该 用 怎样 的 表达 式 来 匹配 各 个 
部 分 之 前 ， 我 们 先 看 看 这 个 正则 表达 式 的 具体 应 用 环境 : 


$text =~ 8/\b{lusername regexNehostname regex) \b/<a href=“mailto:$1*>$l<}\,/a>/g; 


需要 注意 的 一 点 是 其 中 两 个 用 下 画 线 标注 的 反 斜 线 ， 第 一 个 在 正则 表达 式 (e) H, 5 


L 
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一 个 在 replacement 字符 串 的 末尾 。 使 用 这 两 个 反 斜 线 的 理由 各 不 相同 。 我 会 在 稍 后 讨论 \e 
(=77)， 现 在 我 们 只 需要 知道 ，Perl 规定 作为 文本 字符 的 e 符 号 必须 转 义 。 


先 介绍 replacement 字符 串 中 在 “/” 之 前 的 反 斜 线 比 较 好 。 我 们 已 经 看 到 ，Perl 中 查找 替换 
的 基本 形式 是 s/regexVreplacement/modifier， 用 斜 线 来 分 隔 。 所 以 ， 如 果 我 们 需要 在 某 个 部 分 
中 使 用 斜 线 ， 就 必须 使 用 转 义 ， 否 则 反 斜 线 会 被 识别 为 分 隔 符 ， 作 为 字符 串 的 一 部 分 。 也 
就 是 说 ， 如 果 我 们 希望 在 replacement 字符 串 中 使 用 </a>， 就 必须 寄 作 <\/a>。 


这 么 做 当然 可 以 ,但 不 太 好 看 ,所 以 Perl 容许 用 户 自 定义 分 隔 符 。 例 如 s I regex! string | modifier, 
RMA s {regex} {string}modifier。 无 论 采 用 哪 种 形式 ， 因 为 replacement 字符 串 中 的 斜 线 不 再 与 
分 隔 符 有 冲突 ， 也 就 不 需要 转 义 。 第 二 种 形式 的 分 隔 符 非常 明显 ， 所 以 从 现在 开始 我 们 采 
用 这 种 形式 。 


回 到 程序 中 来 ， 请 注意 整个 地 址 是 处 于 \b…\b, 之 间 的 。 添 加 这 些 单词 分 界 符 能 够 避免 不 
完整 匹配 的 情况 ， 例 如 “jfried1l8oreilly .compiler’。 尽 管 遭遇 这 种 无 意义 的 字符 串 的 
几率 很 小 ， 但 使 用 单词 分 界 符 来 避免 此 类 匹配 一 点 也 不 麻烦 ， 所 以 我 会 这 么 做 。 请 注意 我 
是 如 何 用 括号 包围 整个 E-mail 地 址 的 ， 这 样 我 们 就 能 使 用 replacement 字符 审 


‘<athref=“mailto:$1">$1</a>’, 


匹配 用 户 名 和 主机 名 


现在 我 们 来 看 匹配 邮件 地 址 所 需要 的 用 户 名 和 主机 名 的 正则 表达 式 。 主 机 名 ， 例 如 regex. 
info 或 者 www.oreilly .com， 它 们 由 点 号 分 隔 ， 以 “com ”、'edu ”、'info’、‘uk” 或 者 
其 他 事先 规定 的 字符 序列 结尾 。 匹 配 E-mail 地 址 的 最 简单 的 办 法 是 w+\@\w+ (\.\w+)+h 
用 "w+ts 来 匹配 用 户 名 ,以 及 主机 名 的 各 个 部 分 。 不 过 ,实际 应 用 起 来 ,我 们 需要 考 虚 得 更 
周到 一 些 。 用 户 名 可 以 包含 点 号 和 连 字符 《虽然 用 户 名 不 会 以 这 两 种 字符 开头 )。 所 以 ， 我 
们 不 应 该 使 用 \w+,， 而 应 该 用 \w[- .\w] *i。 这 就 保证 用 户 名 以 仆 w 开 头 , 后 面 的 部 分 可 以 
包括 点 号 和 连 字 符 。( 请 注意 ， 我 们 在 字符 组 中 把 连 字 符 排 在 第 一 位 ， 这 样 就 确保 它们 被 作 
为 连 字符 ， 而 不 是 用 来 表示 范围 。 对 许多 流派 来 说 ，. - \w 表示 的 范围 肯定 是 错误 的 ， 它 会 
产生 一 个 随机 的 字母 、 数 字 和 标点 符号 的 集合 ， 具 体 取 决 于 程序 和 计算 机 所 用 的 字符 编码 。 
Perl 能 够 正确 处 理 . -\w， 但 是 使 用 连 字 符 时 多 加 小 心 是 个 好 习惯 。) 
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主机 名 的 匹配 要 复杂 一 些 ， 因 为 点 号 只 能 作 分 隔 符 ， 也 就 是 说 两 个 点 号 之 间 必 须 有 其 他 字 
符 。 所 以 在 前 面 那 个 简单 的 正则 表达 式 中 ， 主 机 名 部 分 用 、\w+ A. \we) + 而 不 是 '[\w.]+1。 
后 者 会 匹配 “. .x. . 。 但 是 ， 即 使 是 前 者 ， 也 能 够 匹配 “Artichokes 481 .00" ， 所 以 我 们 
需要 更 细心 一 些 。 


一 个 办 法 是 给 出 末尾 部 分 的 可 能 序列 ， 跟 在 \w+(\.\w+)*\. (comledulinfo), 之 后 (实际 
上 上， 多 选 分 支 应 该 是 gomledulgovlint|lmillnet|org|biz|infolname|museum|coop| 
aerol [a-z] [a-z], 不 过 为 了 简洁 起 见 , 我 在 这 里 只 列 出 几 项 )。 这 样 就 能 容许 开头 的 w+ 
部 分 ， 然 后 是 可 能 出 现 的 .\w+, 部 分 ， 最 后 才 是 我 们 指定 的 可 能 结尾 。 


实际 上 \w 也 不 是 很 合适 。\wi 能 够 匹配 ASCH 字母 和 数字 , 这 没有 问题 , 但 有 些 系统 中 Ww 
能 够 匹配 非 ASCII 字母 , 例如 a、c、z 、&。 在 大 多 数 流派 中 ， 下 画 线 也 是 可 以 的 。 但 这 些 
字符 都 不 应 该 出 现在 主机 名 中 。 所 以 ,我 们 或 许 应 该 用 '[a-zA-z0-9],, 或 者 是 '[a-z0-9]) 
加 上 /i 修饰 符 (进行 不 区 分 大 小 写 的 匹配 )。 主 机 名 可 能 包括 连 字 符 ， 所 以 我 们 用 
‘{-a-20-9]) (再 次 注意 ， 连 字符 应 该 放 在 第 一 位 )。 于 是 我 们 得 到 用 来 匹配 主机 名 的 


‘[-a-z0-9]+(\.[-a-z0-9]+)*\. (comledu|info)J, 


无 论 使 用 什么 正则 表达 式 ， 记 住 它们 应 用 的 情境 都 是 很 重要 的 。' [-a-z0-9]+(\. 
[-a-z0-9]+)*\. (comledulinfo) 1 这 个 正则 表达 式 本 身 ， 可 以 匹配 “run C 
Startup.command at startup ， 但 是 把 它 置 入 程序 运行 的 环境 中 ， 我 们 就 能 确认 ， 它 会 
匹配 我 们 期 望 的 文本 ， 而 忽略 不 期 望 的 内 容 。 实 际 上 ， 我 会 把 它 放 入 之 前 提 到 的 。 


$text =~ s{\b (username regex\ @hostname regex) \b}{<a href=“mailto:$1">$l</a>)gi; 


(这 里 用 了 ef{…}{…} 分 隔 符 ， 以 及 /i), 但 这 样 就 必须 折 行 。 当 然 ，Perl 不 关心 这 个 问题 ， 
也 不 关心 表达 式 是 否 美观 ， 但 我 关心 。 所 以 我 要 介绍 /x 修饰 符 ， 它 容许 我 们 重新 编排 这 个 
HEA: 


$text =~ Bf 
\b 
# 把 邮件 地 址 存 入 变量 S1 .… 
( 
username regex 
\@ 
hostname regex 
) 
\b 
}{<a href=*mailto:$1">$l</a>}gix; 


啊 哈 ， 现 在 看 起 来 大 不 一 样 了 。 语 句 末尾 出 现 了 /x (在 /g 和 /i 之 后 )， 它 对 这 个 正则 表达 
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式 做 了 两 件 简单 但 有 意义 的 事情 。 首 先 ， 大 多 数 空白 字符 会 被 忽略 ， 用 户 能 够 以 “宽松 排 
列 (free-format)” 编 排 这 个 表达 式 ， 增 强 可 读 性 。 其 次 ， 它 容许 出 现 以 # 开 头 标记 的 注释 。 


要 指出 的 是 , 加 上 /x 之 后 , 表达 式 中 的 大 部 分 空格 符 变 为 “忽略 自身 ”元 字符 (“ignore me” 
metacharacter) , 而 # 的 意思 是 “ 忽 赂 该 字符 及 其 之 后 第 一 个 换行 符 之 前 的 所 有 字符 ”( 字 111)。 
它们 不 是 作为 字符 组 内 部 的 元 字符 (也 就 是 说 ， 即 便 使 用 了 /x， 这 些 字符 组 也 不 是 “随意 
编排 ”的 ) 来 对 待 的 ， 而 且 ， 同 其 他 元 字符 一 样 ， 如 果 和 希望 把 它们 作为 普通 字符 来 处 理 ， 
也 可 以 对 它们 加 以 转 义 。 当 然 ， \sj 总 是 能 够 匹配 空白 字符 ， 例如 m/<a \s+ href=..>/x。 


请 注意 ，/x 只 能 应 用 于 正则 表达 式 本 身 ， 而 不 是 replacement 字符 串 。 同 样 ， 即 使 我 们 现在 
使 用 的 是 st.…}{..} 的 格式 ,修饰 符 接 在 最 后 的 “}” 之 后 (例如 “}x' ), 但 是 在 文中 我 们 仍 
然 使 用 “/x” 代 表 “ 修 饰 符 x”。 


综合 起 来 


现在 ， 我 们 可 以 把 用 户 名 、 主 机 名 的 部 分 ， 以 及 之 前 的 开发 成 果 结 合 起 来 ， 得 到 相对 完整 
的 程序 : 


undef $/; # 进入 “文件 读 取 ”模式 
$text =<>; # 读 入 命令 行 中 指定 的 第 一 个 文件 名 
$text =~ 8/&/&amp;/g; # 把 基本 的 HTML ... 
$text =~ 8/</&lt;/g; # .. FH &、< 和 >... 
$text =~ B/>/&gt;/g; # .. #47 HTML 转 义 
$text =~ 8/%*\s*$/<p>/mg; # 划分 段落 
# 转 措 为 链接 形式 .. 
$text =~ 8{ 
\b 
# 把 地 址 保存 到 S1 ... 
( 
\w([-. \w) * # username 
\@ 


{[-a-z0-9]+(\. [-a-z0-9]+)*\. (comledulinfo) # hostname 
) 
\b 
}{<a href=“mailto:$1">$1</a>)gix; 


print $text; # 最 后 ， 显 示 HTML 文本 
所 有 的 正则 表达 式 都 应 用 于 同一 个 包含 多 行文 本 的 字符 串 ， 需 要 注意 的 是 ， 只 有 用 于 划分 


段落 的 正则 表达 式 才 使 用 /m 修饰 符 , 因为 只 有 那个 正则 表达 式 用 到 了 “和 Si 对 其 他 正则 
表达 式 使 用 /m 并 不 会 产生 影响 〈 只 会 令 看 程序 的 人 迷惑 )。 


E 
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把 HITP URL 转换 为 链接 形式 


最 后 ， 我 们 需要 识别 HTTP URL， 将 它 变 为 链接 形式 。 也 就 是 说 把 “http;/Avww.yahoo.com” 


转变 为 <a*href=http://www.yahoo.com/>http://www.yahoo.com/</a>。 


HTTP URL 的 基本 形式 是 httpyhostname/path， 其 中 的 /path 部 分 是 可 选 的 。 于 是 我 们 得 到 
下 面 的 形式 : 


$text =~ af{ 
\b 


# 将 URL 保存 至 $1 .… 
( 


http:// hostname 
( 

/ path 
) ? 


) 
}{<a href="$1">$1</a>}gix; 


主机 部 分 的 匹配 可 以 使 用 在 E-mail 例子 中 用 过 的 子 表达 式 。URL 的 path 部 分 可 以 包括 各 种 
字符 ， 在 前 一 章 中 我 们 使 用 的 是 '[-a-z0-9_:@&g?=+,.!1/~*'%$]*) (25)， 它 包括 了 除 空 
白字 符 、 控 制 字符 和 <>() {) 之 外 的 大 多 数 ASCII 字符 。 


在 使 用 Pel 解决 这 个 问题 之 前 ， 我 们 必须 对 e 和 进行 转 义 。 同 样 ， 我 会 在 稍 后 讲解 原因 
(=77)。 现 在 ， 我 们 来 看 hostname 和 path 部 分 : 
$text =~ s{ 
\b 
# 将 URD RAES1 ... 
( 
http:// [-a-z0-9]+(\.[-a-z0-9]+)*\. (comledulinfo) \b # hostname 
( 
/ [-a-z0-9_:\@&?=+,.!/~*'S\S)* # path 不 一 定 会 出 现 


)? 
) 
}{<a href="$1">$1</a>}gix; 


你 可 能 注意 了 ,在 path 之 后 没有 \b, 因 为 URL 之 后 通常 都 是 标点 符号 ,例如 本 书 在 O'Reilly 
的 URL 是 : 


http:/Awww.oreilly.com/catalog/regex3/ 
如 果 末尾 有 Nbi, 就 不 能 匹配 。 


也 就 是 说 ， 在 实际 中 ， 我 们 需要 对 表示 URL 结束 的 字符 做 一 些 人 为 的 规定 。 比 如 下 面 的 文 
本 : 


Read “odd” news at http://dailynews.yahoo.com/h/od, and 


maybe some tech stuff at http://www.slashdot.com! 


if 
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现在 正则 表达 式 能 够 匹配 标注 出 的 文本 了 , 当然 末尾 的 标点 显然 不 应 该 作为 URL 的 一 部 分 。 
在 匹配 英文 文本 中 的 URL 了 时， 末尾 的 '[.,?!], 是 不 应 该 作为 URL 的 一 部 分 的 (这 并 不 是 
什么 规定 ， 而 是 我 的 经 验 ， 而 且 大 多 数 时 候 都 有 效 )。 这 很 简单 ， 只 需要 在 表达 式 的 末尾 添 
加 一 个 表示 “ 除 '{.,?!] 之 外 的 任何 字符 ”的 否定 逆序 环视 ,'(?<![.,?1]), 即 可 。 结 果 就 
是 ， 在 我 们 匹配 到 作为 URL 匹配 的 文本 之 后 ， 逆 序 环视 会 反 过 头 来 看 一 眼 ， 保 证 最 后 的 字 
符 符合 要 求 。 如 果 不 符合 要 求 ， 引 擎 就 会 重新 检查 作为 URL 的 字符 申 ， 直 到 最 终 符合 要 求 
为 止 。 也 就 是 强迫 去 掉 最 后 的 标点 ， 让 最 后 的 逆序 环视 匹配 成 功 (在 第 5 章 我 们 会 看 到 另 
一 个 解决 办 法 了 206)。 


插入 之 后 ， 我 们 得 到 了 完整 的 程序 : 


undef $/; # 进入 “文件 读 取 ”模式 
$text = <>; # 读 入 命令 行 中 指定 的 第 一 个 文件 


$text =~ s/&/&amp;/g; # 转换 基本 的 HTML ... 
$text =~ s/</&lt;/g; # .. FFF &、< 和 >... 
$text =~ s/>/&gt;/g; # .. #47 HTML # RX 
$text =~ s/*\s*$/<p>/mg; # 划分 段落 
# 将 E-mail 地 址 转 撞 为 链接 形式 .… 
$text =~ st{ 
\b 
# 把 地 址 保存 到 $1 .… 
{ 
\w[-.\w]* # username 
\@ 


{-a-z0-9]+(\. [-a-z0-9]+)*\. (com|edulinfo) # hostname 
) 
\b 
}{<a href=“mailto:$1%>$1</a>}gix; 


# FF HTTP URL #R % 4448 & ... 
$text =~ s{ 
\b 
# 将 URL 保存 至 $1 .… 
( 
http:// [-a-z0-9]+{\.[-a-20-9]+)*\. (comledulinfo) \b # hostname 
( 
/ [-a-z0-9_:\@&?=4+,.!/~*'S\$]* # path 不 一 定 会 出 现 
(?<!1(.,?1]) # 不 能 以 [.,?!] 结 是 


}? 


) 
}{<a href=*$1*>$1</a>}gix; 
print $text; # 最 后 ， 显 示 结 果 
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构建 正则 表达 式 库 


请 注意 ， 在 这 两 个 例子 中 ， 我 们 使 用 同样 的 正则 表达 式 来 匹配 主机 名 ， 也 就 是 说 ， 如 果 要 
修改 匹配 主机 名 的 表达 式 ， 我 们 希望 这 种 修改 会 同时 对 两 个 例子 生效 。 我 们 可 以 在 程序 中 
多 次 使 用 变量 $SHostnameRegex， 而 不 是 把 这 个 表达 式 写 在 各 处 ， 杂 乱 无 绪 : 


$HostnameRegex = dr/[-a-z0-9]+(\.[-a-z0-9]+)*\. (comledu|info)/i; 


# 将 E-mail 地 址 转换 为 链接 形式 .… 


Stext =~ s{ 

\b 

+H He bh RAE $1 ... 

( 
\w[-.\w)] * # username 
NG 
$HostnameRegex # hostname 

) 

\b 


}{<a href="“mailto:$1%>$1</a>}gix; 


# 将 HTTP URL 转 摘 为 链接 形式 … 
$text =~ S{ 

\b 

# Capture the URL to $1 .. 


http:// §$HostnameRegex \b # hostname 
( 
/ [(-a-z0-9_:\@&?=+, .!/~*'S\$]* # path 不 一 定 会 出 现 
(2<1[.,79]) # REAM (., 2!) SA 


) ? 
href=*$1*%>$1</a>}gix; 

第 一 行使 用 了 Perl 的 ar 操作 符 。 它 与 mn 和 s 操作 符 类 似 ， 接收 一 个 正则 表达 式 (例如 ,使 
用 qr/.…/， 类 似 使 用 m/../ 和 s/…/…/) ， 但 并 不 马上 把 这 个 正则 表达 式 应 用 到 某 段 文本 中 进 
行 匹配 ， 而 是 由 这 个 表达 式 生 成 为 一 个 “regex 对 象 (regex object) “， 作 为 变量 保存 。 之 
后 我 们 就 能 使 用 这 个 对 象 。( 在 本 例 中 ， 我 们 用 变量 $HostnameRegex 来 保存 这 个 变量 ， 供 
后 面 两 个 正则 表达 式 使 用 。) 这 样 做 非常 方便 ， 因 为 程序 看 起 来 非常 清楚 。 此 外 ， 我 们 的 匹 
配 主 机 名 的 正则 表达 式 只 存在 一 个 “ 主 源 (main source)”, 这 样 无 论 在 哪里 需要 匹配 主机 名 ， 
都 可 以 直接 使 用 它 。 第 6 章 (7277) 还 有 关于 构建 这 种 “正则 表达 式 库 ” 的 例子 ， 具 体 讲 
解 见 第 7 章 (7303), 


其 他 的 语言 也 提供 了 创建 正则 表达 式 对 象 的 方法 , 下 一 章 我 们 会 简要 介绍 若干 语言 , 而 Java 
和 .NET 则 在 第 8 和 第 9 章 详细 讲解 。 


ill 
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为 什么 有 时 候 $ 和 @ 需 要 转 义 


你 可 能 注意 到 了 ,，“$” 符 号 既 可 以 作为 表示 字符 串 结束 的 元 字符 ， 又 可 以 用 来 标记 变量 。 
通常 ，“$” 的 意思 是 很 明确 的 ， 但 如 果 在 字符 组 内 部 ， 情 况 就 有 些 麻 烦 ， 因 为 此 时 它 不 能 
用 来 表示 字符 串 的 结束 位 置 ， 只 能 在 转 义 之 后 ， 用 来 标记 变量 。 在 转 义 之 后 ， $ ”就 只 是 
字符 组 的 一 部 分 。 而 这 正 是 我 们 所 要 的 ， 所 以 我 们 需要 在 URL 匹配 的 正则 表达 式 中 对 它 进 
行 转 义 。 

e 的 情况 与 之 类 似 。Perl 用 e 表 示 数 组 名 ， 而 Perl 中 的 字符 串 或 正则 表达 式 中 也 容许 出 现 数 
组 变量 。 如 果 我 们 希望 在 正则 表达 式 中 使 用 e 字 符 , 就 需要 进行 转 义 ,避免 把 它 作为 数组 名 。 


一 些 语言 (Java、VB.NET、C、C#、Emacs、awk 等 ) 不 支持 变量 插值 (variable interpolation) 。 
有 些 语言 (例如 Perl, PHP, Python, Ruby 和 Tcl) 支持 变量 插值 ， 但 是 方法 各 有 不 同 。 我 
们 会 在 下 一 章 详细 讲解 (101)。 


回 到 单词 重复 问题 


That Doubled-Word Thing 


我 希望 第 1 章 提 到 的 单词 重复 问题 能 够 引发 读者 对 于 正则 表达 式 的 兴趣 。 在 本 章 的 开头 我 
给 出 了 一 堆 难 懂 的 代码 ， 将 其 作为 解法 之 一 : 


S/ = *.\n*; 
while (<>) { 
next if !s/\b([a-z)+) ((?:\81<[*4>]4+>)+) (\1\b) /\e[7mS1\e[(mS2\e[7m$3\e[m/ig; 
s/*(?:04\e)*\n)+//mg; # 删除 所 有 未 标记 的 行 
s/*/$ARGV: /mg; # 在 行 首 增加 文件 名 
print; 
} 


对 Perl 有 了 些 了 解 之 后 ， 我 希望 读者 至 少 能 够 看 懂 常 规 的 正则 表达 式 应 用 一 一 其 中 的 <>， 
三 个 s/…/…/， 以 及 print。 不 过 ， 其 他 的 部 分 仍然 很 难 。 如 果 你 关于 Perl 的 知识 全 部 来 自 
本 章 (而 且 关 于 正则 表达 式 的 知识 都 来 自 之 前 的 章节 ), 这 个 例子 可 能 会 超出 你 的 理解 能 力 。 


不 过 ， 如 果 细 致 考察 起 来 ， 我 认为 这 个 正则 表达 式 并 不 复杂 。 在 重读 程序 之 前 ， 我 们 不 妨 
回 过 头 看 看 第 1 页 的 程序 规格 要 求 ， 并 尝试 运行 一 次 : 


% perl -w FindDbl ch01.txt 

ch01.txt: check for doubled words (such as $33 èë), a common problem with 
ch01.txt: * Find doubled words despite capitalization differences, such as with ‘$ë 
ch01 .txt :WW', as well as allow differing amounts of whitespace (space, tabs, 
ch01.txt: /\<(1,000,000imillion | iii )/. But alternation can't be 
ch0l.txt: of this chapter. If you knew MW BMS specific doubled word to find (such 





wo 
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先 来 看 这 个 Perl 的 解法 ， 然 后 我 们 会 看 到 一 个 Java 的 解法 ， 接 触 另 一 种 使 用 正则 表达 式 的 
思路 。 现 在 列 在 下 面 的 程序 使 用 了 8 {regex} (replacement) modifier 的 替换 形式 ， 同 时 使 用 了 
/x 修饰 符 来 提高 清晰 程度 (空间 更 充裕 的 时 候 ， 我 们 使 用 更 易 懂 的 “next unless’ hk 
‘next if! )。 除 去 这 些 ， 它 与 本 章 开 头 的 程序 其 实 就 是 一 模 一 样 的 。 


示例 2-3: 用 Perl 处 理 重复 单词 


$/ = *.\n"; OF 设 定 特殊 的 “ 块 模式 ”(*chunk-mode") ; 一 块 文本 的 终结 为 点 号 和 换 
行 桂 的 结合 体 
while (< >) 四 
{ 
next unless 8{@# (下 面 是 正则 表达 式 ) 

### 匹配 一 个 单词 : 
\b # 单词 的 开始 位 置 .… 
( [a-z}+ ) # 把 读 取 的 单词 存储 至 $1 (和 \1) 


### 下 面 是 任意 多 的 空白 字符 和 /或 tag 
( # 把 空白 保存 到 $2 


(?: # (使 用 非 捕获 型 括号 ) 
\S # 空白 字 柑 (包括 换行 桂 ， 这 样 非常 方便 ) 
| # 或 者 是 
<[^>]+> # <TAG> 形 式 的 tag 

) + # 至 少 需要 出 现 一 次 ， 多 次 不 受 限 制 


) 


ttt 现在 再 次 匹配 第 一 个 单词 : 

(\1\b) # Nb 保证 用 来 避免 嵌 套 单词 的 情况 ,保存 到 $3 
# (正则 表达 式 结束 ) 
} 


# 上 面 是 正则 表达 式 . 下 面 是 replacement FHF, REAWRH, /i, /g 和 /x 
{\e[7m$1\e[m$2\e[7m$3\e[m)igx; © 

s/*(2?:(*\e]*\n)+//mg; © # 去 掉 所 有 未 标记 的 行 

Be/^/SRRGV: /mg; © # 在 每 行 开头 加 上 文件 名 

print; 


} 
这 小 段 程序 中 出 现 了 许多 我 们 设 见 过 的 东西 。 下 面 我 会 简要 地 介绍 它们 以 及 背后 的 逻辑 ， 
不 过 我 建议 读者 查看 Perl 的 man page 了 解 细节 (如果 是 正则 表达 式 相 关 的 细节 ， 可 以 查阅 


第 7 章 )。 在 下 面 的 描述 中 ,“ 神 奇 ”(magic) 的 意思 是 “这 里 用 到 了 读者 可 能 不 熟悉 的 Perl 
的 特性 ”。 


@ ”因为 单词 重复 问题 必须 应 付 单词 重复 位 于 不 同行 的 情况 ， 我 们 不 能 延续 在 E-mail 的 例 
子 中 使 用 的 普通 的 按 行 处 理 的 方式 。 在 程序 中 使 用 特殊 变量 $/ 〈 没 错 ， 这 确实 是 一 个 
变量 ) 能 使 用 一 种 神奇 的 方式 ， 让 <> 不 再 返回 单行 文字 ， 而 返回 或 多 或 少 的 一 段 文 字 。 
返回 的 数据 仍然 是 一 个 字符 串 ， 只 是 这 个 字符 串 可 能 包含 多 个 逻辑 行 。 
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O 你 是 否 注意 到 , <> 没 有 值 赋 给 任何 变量 ? 作为 while 中 的 条 件 使 用 时 ,<> 的 神奇 之 处 在 
于 ， 它 能 够 把 字符 串 的 内 容 赋 给 一 个 特殊 的 默认 变量 ( 注 6)。 该 变量 保存 了 s/../../ 
和 print 作用 的 默认 字符 串 。 使 用 这 些 默 认 变量 能 够 减少 元 余人 代码， 但 Perl 新 手 不 容 
易 看 明白 ， 所 以 我 还 是 推荐 ， 在 你 习惯 之 前 ， 把 程序 写 得 更 清楚 一 些 。 


© 如 果 没 有 进行 任何 替换 ， 那 么 替换 命令 之 前 的 next unless 会 导致 Perl 中 断 处 理 当 前 
字符 串 〈 转 而 开始 下 一 个 字符 串 )。 如 果 在 当前 字符 串 中 没有 找到 单词 重复 ， 也 就 不 必 
进行 下 一 步 的 工作 。 


© replacement 字符 串 包 含 的 就 是 “$1$2$3”， 加 上 插入 的 ANSI 转 义 序列 ， 把 两 个 重 全 的 
词 标记 为 高 亮 , 中 间 的 部 分 则 不 标记 高 亮 。 转 义 序列 \e{7m 用 于 标注 高 亮 的 开始 ，\e [m 
用 于 标注 高 亮 的 结束 (在 Perl 的 正则 表达 式 和 字符 串 中 ，\e 用 来 表示 ASCI 的 转 义 字 
符 ， 该 字符 表示 之 后 的 字符 为 ANSI 转 义 序列 )。 


仔细 看 看 正则 表达 式 中 的 那些 括号 ,你 会 发 现 “$1$2$3” 表 示 的 完全 就 是 匹配 的 文本 。 
所 以 ， 除了 添加 转 义 序列 之 外 ， 整 个 替换 命令 并 没有 进行 任何 实质 修改 。 


我 们 知道 $1 和 $3 匹配 的 是 同样 的 文本 (这 也 是 整个 程序 的 意义 所 在 !)， 所 以 在 
replacement 中 只 用 一 个 也 是 可 以 的 。 不 过 ， 因 为 这 两 个 单词 的 大 小 写 可 能 有 区 别 ， 我 
用 了 两 个 变量 。 


人 @ 这 个 字符 串 可 能 包括 多 个 逻辑 行 ， 不 过 在 替换 命令 标记 了 所 有 的 重复 单词 之 后 ， 我 们 希 
望 只 保留 那些 包含 转 义 字符 的 逻辑 行 。 去 掉 不 包含 转 义 字符 的 逻辑 行 之 后 , 留 下 的 就 是 
字符 串 中 我 们 需要 处 理 的 行 。 因 为 我 们 在 替换 中 使 用 的 是 增强 的 行销 点 匹配 模式 (/m 
修饰 符 ), 正则 表达 式 “([^\el *\n)+1 能 够 找 出 不 包含 转 义 字符 的 逻辑 行 。 用 这 个 表达 
式 来 替换 掉 所 有 不 需要 处 理 的 行 。 结 果 留 下 的 只 是 包含 转 义 字符 的 逻辑 行 , 也 即 那些 包 
含 单词 重复 的 行 〈 注 7)。 


© 变量 SARGV 提供 了 输入 文件 的 名 字 。 结 合 /m 和 /g， 这 个 替换 命令 会 把 输入 文件 名 加 到 
留 下 的 每 一 个 逻辑 行 的 开头 。 多 酷 ! 


注 6: 默认 变量 是 $_ (是 的 ， 这 也 是 一 个 变量 )。 它 可 以 作为 多 个 函数 和 操作 符 的 默认 操作 对 象 。 
注 7: 在 这 里 我 们 假设 输入 的 文本 中 不 包含 转 义 字 和 村。 否则 程序 不 能 正常 工作 .。 
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最 后 , print 会 输出 字符 串 中 留 下 的 逻辑 行 以 及 转 义 字符 。while 循环 对 输入 的 所 有 字符 串 
重复 处 理 (每 次 处 理 一 段 )。 


更 深入 一 点 : 运算 符 、 函 数 和 对 象 


我 之 前 已 经 强调 过 ， 在 本 章 我 以 Pel 作为 工具 来 讲解 概念 。Perl 的 确 是 一 种 有 用 的 工具 ， 
但 我 想 要 强调 的 是 ， 这 个 问题 利用 其 他 语言 的 正则 表达 式 解 决 起 来 也 很 容易 。 


同样 ， 因 为 Perl 具有 与 其 他 高 级 语言 不 同 的 独特 风格 ， 讲 解 这 些 概念 更 加 容易 。 这 种 独特 
风格 就 是 ， 正 则 表达 式 是 “基础 级 别 (first-class)” 的 。 也 就 是 说 ， 基 本 的 运算 符 可 以 直接 
作用 于 正则 表达 式 ， 就 好 像 + 和 -作用 于 数字 一 样 。 这 样 减轻 了 使 用 正则 表达 式 的 “语法 包 
HR” (syntactic baggage), 


其 他 许多 语言 并 没有 这 样 的 特性 。 因 为 第 3 章 中 提 到 的 原因 (93)， 许 多 现代 语言 坚持 提 
供 专 用 的 函数 和 对 象 来 处 理 正则 表达 式 。 例 如 ， 可 能 有 一 个 函数 接收 表示 正则 表达 式 的 字 
符 串 ， 以 及 用 于 搜索 的 文本 ， 然 后 根据 正则 表达 式 能 否 匹配 该 文本 ， 返 回 真 值 或 假 值 。 更 
常见 的 情况 是 ， 这 两 个 功能 (首先 对 一 个 作为 正则 表达 式 的 字符 串 进 行 解释 (interpretion) , 
然后 把 它 应 用 到 文本 当中 ) 被 分 割 为 两 个 或 更 多 分 离 的 函数 , 就 像 下 一 页 的 Java 代码 一 样 。 
这 些 代码 使 用 Javal.4 以 后 作为 标准 的 java.util. regex $. 


在 程序 的 上 部 我 们 看 到 ， 在 Perl 中 使 用 的 3 个 正则 表达 式 在 Java 中 作为 字符 串 传递 给 
Pattern.compile 程序 。 通过 比较 我 们 发 现 , Java 版 本 的 正则 表达 式 包 含 了 更 多 的 反 斜 线 ， 
原因 是 Java 要 求 正 则 表达 式 必 须 以 字符 申 方 式 提供 。 正 则 表达 式 中 的 反 斜 线 必 须 转 义 ， 以 
避免 Java 在 解析 字符 串 时 按照 自己 的 方式 处 理 它 们 。 


我 们 还 应 该 注意 到 ， 正 则 表达 式 不 是 在 程序 处 理 文本 的 主体 部 分 出 现 ， 而 是 在 开头 的 初始 
化 部 分 出 现 的 。Pattern.compile 国 数 所 作 的 仅仅 是 分 析 这 些 作 为 正 刚 表达 式 的 字符 串 ， 
构建 一 个 “已 编译 的 版 本 (compiled version)”, WIRES Pattern 变量 (例如 regex1), 
然后 ， 在 处 理 文本 的 主体 部 分 ， 已 编译 的 版 本 通过 regex1l .matcher (text) 应 用 到 文本 之 
上 ， 得 到 的 结果 用 于 替换 。 同 样 ， 我 们 会 在 下 一 章 探究 其 中 的 细节 ， 在 这 里 我 们 只 需要 了 
解 ， 在 学 习 任 何 一 门 支持 正则 表达 式 的 语言 时 ， 我 们 需要 注意 两 点 : 正则 表达 式 的 流派 ， 
以 及 该 语言 运用 正则 表达 式 的 方式 。 
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示例 2-4: 用 Java 解决 重复 单词 的 问题 


import java.io.*; 
import java.util.regex. Pattern; 
import java.util.regex.Matcher; 


public class TwoWord 


{ 


public static void main(String [] args) 


} 


{ 
Pattern regexl = Pattern.compile( 
"\\b( [a-z] +) (C?=\\BIN\<[4>] 4\\>)4) (\\1\\b)”, 
Pattern.CASE_INSENSITIVE) ; 
String replacel = “\033[7m$1\033 [m$2\033 (7m$3\033([m’*; 
Pattern regex2 = Pattern.compile(“4(?:[(4\\e])*\\n)+", Pattern.MULTILINE) ; 
Pattern regex3 = Pattern.compile(“*((*\\n)+)%, Pattern.MULTILINE) ; 


// MPODA MED AK Mik FF te F A... 
for (int i = 0; i < args.length; i++) 
{ 
try { 
BufferedReader in = new BufferedReader (new FileReader(args[il)); 
String text; 


// For each paragraph of each file.... 
while ((text = getPara(in)) != null) 
{ 
// 应 用 3 条 替换 规则 
text = regexl.matcher (text) .replaceAll(replacel); 
text = regex2.matcher(text).replaceAll(**); 
= regex3.matcher(text).replaceAll(args{i] + “: $1”); 


// 显示 结果 
System.out.print (text) ; 
} 
}eatch (IOException e} { 


System.err.printin(“can't read [*+args[i]+"]: ”+ e.getMessage({)); 
} 


// 用 于 读 入 “一 段 ” 文 本 的 子 程序 


static String getPara(BufferedReader in) throws java.io.IOException 


{ 


StringBuffer buf = new StringBuffer(); 
String line; 


while ((line = in.readLine({)) != null && 
(buf.length() == 0 || line.length() != 0)) 
{ 
buf.append(line + “\n"); 
} 
return buf.length() == 0 ? null : buf.toString(); 
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Overview of Regular Expression Features and Flavors 


现在 我 们 稍微 找到 点 感觉 了 ， 也 见识 了 若干 使 用 正则 表达 式 的 工具 软件 ， 你 可 能 觉得 ， 该 
坐 下 来 潜心 研究 研究 如 何 使 用 它们 了 。 不 过 ， 比 较 比 较 第 1 章 中 不 同 版 本 的 egrep， 或 是 前 
一 章 中 Perl 程序 和 Java 程序 的 区 别 就 会 发 现 ， 工 具 不 同 ， 正 则 表达 式 的 写法 和 用 法 都 有 很 
大 的 不 同 。 


在 某 种 特定 的 宿主 语言 或 工具 软件 中 使 用 正则 表达 式 时 ， 主 要 有 3 个 问题 值得 注意 : 
。 ”支持 的 元 字符 ， 以 及 这 些 元 字符 的 意义 = ,这 通常 称 为 正则 表达 式 的 “流派 (flavor)”。 


。 ”正则 表达 式 与 语言 或 轩辕 的 “ 交 驯 -Sinlertice) 方式 。 警 如 如 何 进行 正则 表达 式 操作 ， 
sir mee, ARN 文本 3 









| ayes OAREN es 
ss Sm > PU EHS. EDIE Ee 
对 应 的 就 是 第 32 页 的 元 字符 列 


= K l tn 
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正则 表达 式 与 宿主 语言 的 交互 方式 (interface) 也 很 重要 。 交 互 方式 的 一 部 分 内 容 起 到 装饰 
性 作用 ， 描 述 对 应 的 编程 语言 中 正则 表达 式 的 应 用 规则 。 另 一 部 分 内 容 定义 功能 ， 它 们 决 
定 了 语言 所 能 支持 的 操作 ， 以 及 操作 的 难 易 程度 。 对 应 于 汽车 的 例子 ， 它 相当 于 汽车 与 我 
们 和 我 们 的 生活 相 “ 结 合 ”的 程度 。 某 些 问 题 可 能 是 装饰 性 的 ， 例 如 加 油 口 在 车 的 哪 一 侧 ， 
车 窗 是 否 能 电动 升降 。 其 他 问题 可 能 重要 些 ， 例 如 是 手动 变速 还 是 自动 变速 。 还 有 些 关于 
功能 的 问题 .你 的 车 怎样 开 进 车 库 ? 它 能 装 得 下 一 个 大 号 床 垫 吗 ?如 果 是 滑雪 板 呢 ?或 者 
EAKA? (以 及 这 些 人 如 何 进 出 ， 在 这 个 问题 上 四 门 车 显然 比 两 门 车 有 优势 )。 宜 传 册 会 
介绍 一 些 此 类 信息 ， 不 过 你 可 能 需要 阅读 封底 的 小 字 才 能 了 解 所 有 细节 。 


最 后 需要 关注 的 是 引擎 ， 以 及 引擎 驱动 车 轮 的 原理 。 汽 车 的 类 比 在 这 里 不 适用 ， 因 为 大 家 
都 理解 汽车 发 动机 工作 的 基本 知识 : 如 果 是 汽油 发 动机 ， 人 们 就 不 会 往 油 箱 里 加 柴油 。 如 
果 是 手动 变速 ， 他 们 不 会 忘记 踩 离合 器 。 但 是 ， 在 正则 表达 式 的 世界 中 ， 即 使 是 一 些 最 基 
本 的 知识 : 例如 正则 引擎 的 匹配 原理 ， 以 及 该 原理 对 表达 式 的 调 校 和 使 用 的 影响 ， 通 常 都 
没有 文档 介绍 。 但 是 ， 这 些 细节 对 实际 使 用 正则 表达 式 又 极其 重要 ， 所 以 我 们 会 在 下 一 章 
用 整 章 的 篇 幅 来 讲解 。 


本 章 的 内 容 


如 标题 所 示 ， 这 一 章 讲解 正则 表达 式 的 特性 和 流派 。 它 介绍 了 经 常 使 用 的 元 字符 ， 以 及 在 
具体 的 工具 软件 中 使 用 正则 表达 式 的 方式 。 这 些 内 容 涵盖 了 上 文 提 到 的 前 面 两 点 。 第 三 点 
一 一 正则 引擎 是 如 何 工 作 的 ， 这 些 工作 原理 有 什么 实际 意义 一 一 会 在 下 面 的 几 章 中 涉及 。 


关于 本 章 ， 我 要 说 的 一 点 是 ， 它 并 不 能 告诉 你 某 种 工具 软件 中 的 正则 表达 式 提 供 了 哪些 特 
性 ， 也 不 会 教育 你 如 何 使 用 在 提 过 的 各 种 工具 软件 和 编程 语言 中 运用 正则 表达 式 。 相 反 ， 
它 的 上 且 的 是 ， 提 供 关 于 正则 表达 式 本 身 和 使 用 它 的 工具 软件 的 完整 图 景 。 如 果 我 们 与 世 隔 
绝 ， 只 使 用 一 件 工具 ， 或 许 不 需要 关心 其 他 的 工具 (或 者 是 该 工具 的 其 他 版 本 ) 有 什么 差 
异 。 但 现实 情况 并 非 如 此 ， 所 以 了 解 我 们 所 用 工具 的 技术 渊源 ， 或 许 能 够 提供 有 趣 而 又 有 
价值 的 启示 。 


AS 
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在 正则 的 世界 中 漫步 


A Casual Stroll Across the Regex Landscape 


我 喜欢 在 故事 的 开头 讲 讲 某 些 正则 表达 式 的 流派 以 及 相应 程序 的 演变 过 程 。 所 以 ， 请 准备 
一 杯 你 最 喜欢 的 热 (或 凉 的 ) 饮料 ， 放 轻松 ， 我 们 一 起 来 看 看 今天 的 正则 表达 式 背 后 古怪 
的 发 展 史 。 这 样 做 是 为 了 让 你 全 面 了 解 正则 表达 式 ， 培 养 追 问 “ 为 什么 会 如 此 ”的 习惯 。 
我 们 为 有 兴趣 的 读者 准备 了 一 些 脚 注 ， 不 过 大 部 分 脚注 只 能 算是 博得 读者 一 笑 的 花絮。 


正则 表达 式 的 起 源 


The Origins of Regular Expressions 


关于 正则 表达 式 ， 最 初 的 想法 来 自 20 世纪 40 年 代 的 两 位 神经 学 家 ，Warren McCulloch 和 
Walter Pitts， 他 们 研究 出 一 种 模型 ， 认 为 神经 系统 在 神经 元 层面 上 就 是 这 样 工作 的 ( 注 1)。 
若干 年 后 , 数学 家 Stephen Kleene 在 代数 学 中 正式 描述 了 这 种 被 他 称 为 “正则 集合 ”(regular 
sets) 的 模型 ， 正 则 表达 式 才 成 为 现实 。Stephen 发 明了 一 套 简 洁 的 表示 正则 集合 的 方法 ， 

他 称 之 为 “正则 表达 式 ”(regular expressions), 


20 世纪 50 年 代 和 60 年 代 ， 理 论 数学 界 对 正则 表达 式 进 行 了 充分 的 研究 。Robert Constable 
的 文章 为 那些 对 数学 感 兴趣 的 读者 提供 了 很 不 错 的 简介 ( 注 2)。 


尽管 存在 更 古老 的 应 用 正则 表达 式 的 证 据 ， 但 我 能 找到 的 是 ， 关 于 在 计算 方面 使 用 正则 表 
达 式 的 资料 ， 最 时 发表 的 是 1968 年 Ken Thompson 的 文章 Regular Expression Search 
Algorithm ( 注 3)， 在 文中 ， 他 描述 了 一 种 正则 表达 式 编译 器 ， 该 编译 器 生成 了 IBM 7094 
的 object 代码 。 由 此 也 诞生 了 他 的 ged， 这 种 编辑 器 后 来 成 了 Unix 中 ed 编辑 器 的 基础 。 


ed 的 正则 表达 式 并 不 如 ged 的 先进 , 但 是 这 是 正则 表达 式 第 一 次 在 非 技术 领域 大 规模 使 用 。 
ed 有 条 命令 ， 显 示 正 在 编辑 的 文件 中 能 够 匹配 特定 正则 表达 式 的 行 。 该 命令 “g/Reguiar 
Expression/p”， 读 作 “Global Regular Expression Print”( 应 用 正则 表达 式 的 全 局 输出 )。 这 
个 功能 非常 实用 ， 最 终 成 为 独立 的 工具 grep (之 后 又 产生 了 egrep 一 一 扩展 的 grep)。 


注 1: 文章 的 标题 是 A logical calculus of the ideas imminent in nervous activity, 首次 刊载 于 Bulletin 
of Math. Biophysics 5(1943)， 然 后 收录 于 Embodiments of Mind (MIT Press 1965) 。 这 篇 文章 
的 开头 简要 描述 了 神经 细胞 的 行为 方式 〈 你 知道 神经 脉冲 的 速度 在 每 秒 1 ASF] 150 米 之 间 
吗 ? ) ， 下 面 就 都 是 各 种 算式 了 ， 反 正 我 是 一 点 也 不 懂 。 

注 2: Robert L. Constable, “The Role of Finite Automata in the Development of Modern Computing 
Theory,” in The Kleene Symposium, Eds. Barwise, Keisler, and Kunen (North-Holland 
Publishing Company, 1980), 61-83, 

ig 3: Communications of the ACM, Vol.11, No. 6, June 1968 , 
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Grep 中 的 元 字符 


相 比 egrep, grep 和 其 他 早期 工具 所 支持 的 元 字符 相当 有 限 。 元 字符 * 是 受 支持 的 , 但 是 + 和 ? 
则 不 受 支持 (不 支持 问号 是 很 严重 的 缺陷 )。Grep 中 用 于 捕获 元 字符 的 是 \(…\) ， 而 未 转 义 
的 括号 会 当 作 普通 字符 〈 注 4)。grep 支持 行销 点 (line anchors)， 但 方式 十 分 有 限 。 如 果 、* 
出 现在 正则 表达 式 的 开头 ， 它 就 是 匹配 行 开头 的 元 字符 。 否 则 它 就 不 是 一 个 元 字符 ， 而 只 
是 一 个 普通 的 脱 字符 。 同 样 ，$ 只 有 出 现在 正则 表达 式 的 未 尾 时 才 被 当 作 元 字符 。 结 果 ， 用 
户 没 法 使 用 'enad$ 1^startj 这 样 的 表达 式 。 不 过 这 不 要 紧 ， 因 为 grep 不 支持 多 选 结构 。 


元 字符 的 作用 规则 也 很 重要 。 例 如 ，grep 的 最 大 问题 或 许 在 于 ， 星 号 无 法 用 来 限定 括号 内 
的 子 表达 式 ， 而 只 能 用 于 限定 普通 的 字符 、 字 符 组 ， 或 者 点 号 。 所 以 ， 在 grep 中 ， 括 号 的 
作用 仅 限于 捕获 已 匹配 的 文本 , 而 不 能 用 来 进行 普通 的 分 组 。 实际 上 , 某 些 早 期 版 本 的 grep 
甚至 不 支持 括号 媒 套 。 


Grep 的 发 展 历程 


尽管 今天 的 许多 系统 都 有 对 应 的 grep， 但 你 会 注意 到 ， 本 书 中 提 到 grep 时 使 用 的 都 是 过 去 
时 态 (译注 1)。 过 去 时 对 应 旧版 本 所 属 的 流派 , 它们 的 历史 都 超过 30 年 了 。 在 这 段 时 间 中 ， 
技术 在 不 断 进步 ， 旧 的 程序 也 会 加 入 新 的 特性 ，grep 也 不 例外 。 


在 最 老 版 本 的 grep Zt, AT&T 的 贝尔 实验 室 加 入 了 一 些 新 的 特性 , 例如 从 lex 程序 中 借鉴 
来 的 \ (min, max\}。 他 们 还 修正 了 -y 选项 , 早期 版 本 的 grep 通过 -y 进行 不 区 分 大 小 写 的 匹 
配 ， 但 此 功能 并 不 正常 。 同 时 ，Berkeley 的 人 加 入 了 表示 单词 开头 和 结束 的 元 字符 ， 把 -y 
改 为 -i。 不 幸 的 是 ， 星 号 或 其 他 量词 仍然 无 法 作用 于 括号 内 的 表达 式 。 


Egrep 的 发 展 历程 


此 时 ，Alfred Aho (同样 是 ATAT 的 贝尔 实验 室 ) SUT egrep， 它 提供 了 第 1 章 介绍 的 各 
种 元 字符 中 的 大 部 分 元 字符 。 更 重要 的 是 ， 它 以 一 种 全 然 不 同 (但 总 的 来 说 更 好 ) 的 方式 
实现 了 这 些 功能 。 不 但 加 上 了 [+ Ales, 还 容许 量词 作用 于 括号 内 的 表达 式 , 这 大 大 增强 了 
egrep 的 表达 能 力 。 


注 4: 历史 遗留 问题 : ed (因此 也 包括 8rep) 使 用 转 义 的 括号 来 分 组 ， 是 因为 Ken Thompson 觉 
得 正则 表达 式 主要 用 于 C 代码 ， 因 此 匹配 普通 括号 会 比 回溯 更 常用 。 
译注 1: 汉语 无 法 完整 地 表现 时 态 。 
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同时 ， 多 选 结构 加 入 了 ，, 行销 点 也 升级 到 “基础 级 别 ”， 可 以 在 正则 表达 式 的 任何 地 方 使 用 。 
不 过 ，egrep 也 不 够 完美 一 一 有 时 候 它 能 匹配 ， 但 不 会 显示 结果 ， 而 且 它 缺乏 某 些 当今 流行 
的 特性 。 不 过 无 论 如 何 ， 它 都 比 grep 有 用 得 多 。 


其 他 工具 的 发 展 历程 


就 在 egrep 演变 的 同时 ， 其 他 程序 ， 例 如 awk, lex 和 sed， 也 在 按 各 自 的 脚步 前 进 。 通 常 ， 
开发 人 员 会 把 某 个 程序 中 自己 喜欢 的 特性 添加 到 其 他 程序 中 。 有 时 候 ， 结 果 并 不 尽 如 人 意 。 
例如 ， 如 果 要 在 grep 中 增加 对 + 的 支持 ， 就 不 能 直接 使 用 “+' ， 因 为 长 期 来 以 来 在 grep 
中 “+:” 都 不 是 元 字符 ， 突 然 进 行 这 种 修改 会 让 大 家 感到 不 适应 。 因 为 “\+” 可 能 是 grep 
的 用 户 在 正常 情况 下 不 会 输入 的 ， 把 它 作 为 “ 重 现 一 次 或 多 次 ”的 元 字符 可 能 更 合适 。 


有 了 时候， 添加 新 特性 也 会 带 来 新 的 bug。 另 外 一 些 时 候 ， 新 添加 的 特性 不 久 后 又 被 删除 了 。 
构成 流派 的 各 个 细微 的 方面 ， 几 乎 都 没有 什么 文档 ， 所 以 新 的 工具 软件 要 么 形成 了 自己 的 
流派 ， 要 么 尝试 模仿 其 他 工具 ， 提 供 “ 看 来 相似 ”的 功能 。 


这 一 切 ， 加 上 漫长 的 发 展 史 ， 众 多 的 程序 员 ， 结 果 就 是 巨大 的 谜 局 ( 注 5)。 


POSIX 一 一 标准 化 的 尝试 


诞生 于 1986 年 的 POSIX 是 Portable Operating System Interface (可 移植 操作 系统 接口 ) 的 缩 
写 ， 它 是 一 系列 标准 ， 确 保 操作 系统 之 间 的 移植 性 。 该 标准 的 某 些 部 分 关 平 正则 表达 式 和 
使 用 他 们 的 传统 工具 ， 所 以 值得 我 们 关注 。 不 过 ， 本 书 涉及 的 各 种 流派 无 一 严格 地 遵守 了 
所 有 的 相关 规定 。 为 了 厘清 正则 表达 式 的 混乱 局 面 ，POSIX 把 各 种 常见 的 流派 分 为 两 大 类 : 
Basic Regular Expressions (BREs) 和 Extended Regular Expressions (EREs), POSIX 程序 必 
须 支 持 其 中 的 任意 一 种 。 下 页 的 表 3-1 简要 介绍 了 这 两 种 流派 的 元 字符 。 


POSIX 标准 的 主要 特性 之 和 + 是 locale, 它 是 一 组 关于 语言 和 文化 传统 -一 例如 日 期 和 时 间 的 
格式 、 货币 币值 、 字符 编码 对 应 的 意义 等 一 一 的 设 定 。locals 的 目的 在 于 让 程序 变 得 国际 化 。 
它们 不 是 正则 表达 式 相关 的 概念 ， 尽 管 它们 会 影响 正则 表达 式 的 使 用 。 举 例 来 说 ， 工 作 于 


注 5: 尤其 是 你 尝试 一 下 子 解决 所 有 问题 的 时 候 更 是 如 此 ， 我 现在 对 此 体会 深刻。 
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表 3-1: POSIX 正则 表达 式 流派 概览 











a BRE a RFS 
aa 7. 6. beh ik A 

“任意 数 月 ”量词 ` 

+ 和 ?量词 Ee 

区 间 重 记 (min, max) 

分 组 E 

量词 可 否 作用 于 括号 / 

反 向 引用 

多 选 结构 eae a |" 


Latin-1 编码 (也 称 为 “ISO-8859-1") 之 中 时 ，a 和 A (分 别 对 应 十 进 制 编码 224 和 160) 
也 被 认为 是 “字符 "， 任 何不 区 分 大 小 写 的 正则 表达 式 都 会 认为 这 两 个 字符 是 相等 的 。 


另 一 个 例子 是 \w， 通 常用 于 表示 “构成 单词 的 字符 ”( 在 很 多 流派 中 ， 它 等 价 于 
[a-za-Z0-9_] )。 这 个 特性 并 不 是 POSIX 中 必须 的 ， 但 容许 出 现 。 如 果 支 持 的 话 ，\w 就 能 
对 应 locale 中 的 所 有 字母 和 数字 ， 而 不 仅仅 限于 ASCII 编码 的 字符 和 数字 。 


如 果 程 序 支持 Unicode, 那么 关于 locale 的 问题 就 极 大 地 简化 了 。Unicode 的 详细 讨论 从 106 
页 开始 。 


Henry Spencer 的 正则 表达 式 包 


同样 是 在 1986 年 , 发 生 了 于 一 件 更 重要 的 事情 , Henry Spencer 发 布 了 用 C 语言 写 的 正则 表 
达 式 包 ， 这 个 包 可 以 毫 无 困难 地 置 入 其 他 程序 中 一 一 这 在 当时 具有 开创 性 的 意义 。 每 一 个 
使 用 Henry 的 包 的 程序 一 一 的 确 存 在 很 多 一 一 都 属于 相同 的 流派 ， 除 非 程序 的 作者 费 尽 周 
折 去 修改 。 


Perl 的 发 展 历程 


差不多 在 同时 ，Larry Wall 开始 开发 一 种 工具 ， 也 就 是 日 后 的 Perl 语言 。 他 的 patch 程序 已 
经 大 大 促进 了 分 布 式 软件 开发 (distributed software development), ， 但 是 Perl 注定 要 产生 重 
大 的 影响 。 


1987 年 12 H, Larry 发 布 了 Perl Version 1, Perl 很 快 引 起 了 关注 ， 因 为 它 炮 合 了 其 他 语言 
的 众多 特性 ， 但 指向 一 个 明确 的 目的 ;就 是 我 们 日 常 所 说 的 “实用 (useful)”. 
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Perl 的 特性 中 值得 一 提 的 是 , 它 提供 了 传统 上 只 有 专用 工具 sed 和 awk 才 提 供 的 正则 表达 式 
操作 符 一 一 这 在 通用 脚本 语言 中 是 个 首创 。 正 则 引擎 的 代码 来 自 一 个 早期 的 项 目 一 一 Larry 
的 新 闻 阅 读 器 rn (其 中 的 正则 表达 式 代 码 来 自 James Gosling 的 Emacs ( 注 6) )。Perl 的 正 
则 流派 ， 用 当时 的 标准 衡量 是 很 强大 的 ， 但 功能 不 如 今天 那样 齐全 。 它 主要 的 问题 在 于 ， 

最 多 只 能 支持 9 组 括号 ，9 个 多 选 结 构 ， 最 粳 糕 的 是 ， 括 号 内 不 容许 出 现 ,,， 也 不 能 进行 
不 区 分 大 小 写 的 匹配 , 不 支持 字符 组 中 的 \w (完全 不 支持 \a 和 \s)。 也 不 支持 区 间 量 词 min, 


max} , 


Perl 2 发 布 于 1988 年 6 H. Larry 完全 放弃 了 原 有 的 正则 表达 式 代 码 , 而 采用 了 前 面 提 到 过 
的 Henry Spencer 的 正则 表达 式 包 的 增强 版 。 括 号 的 数目 仍然 只 有 9 个 ,但 是 括号 中 可 以 使 
用 了。'\a 和 \s 的 支持 也 加 了 进来 ，\w 现 在 可 以 匹配 下 画 线 了 ， 从 这 时 开始 ，\w 能 够 匹 
配 Perl 的 变量 名 中 容许 出 现 的 字符 。 此 外 ， 字 符 组 之 内 也 可 以 出 现 元 字符 (表示 否定 的 元 
字符 、\D、\Ww 和 \s， 也 可 以 支持 ， 但 不 能 使 用 在 字符 组 内 部 ， 而 且 总 在 有 些 情况 下 无 法 正 
常 工作 )。 很 重要 的 一 点 是 ， 添 加 了 /i 量词 ， 能 够 进行 不 区 分 大 小 写 的 匹配 。 


Perl 3 发 布 于 一 年 多 以 后 的 1989 年 10 月 。 它 添加 了 /e 量词 ， 这 样 极 大 地 增强 了 替换 运算 
符 的 能 力 , 同时 修正 了 之 前 版 本 中 的 一 些 与 回调 相关 的 bug, 也 添加 了 {min, max} 区 间 量 词 。 
虽然 很 不 幸 ， 这 些 量词 不 能 保证 在 任何 情况 下 都 可 以 正常 工作 。 还 有 ， 这 时 候 Per 的 正则 
引擎 本 不 应 该 停留 在 只 处 理 8 位 编码 数据 的 水 平 ， 但 是 面 对 非 ASCI 输入 时 ， 会 产生 无 法 
预料 的 结果 。 


Perl 4 的 发 布 是 在 一 年 半 以 后 ，1991 年 3 月 , 在 接 下 来 的 两 年 间 ，Perl 4 一 直 在 改进 ， 直 到 
1993 年 2 月 发 布 最 终 升 级 。 到 此 时 ， 之 前 的 bug 已 经 修正 ， 原 有 的 限制 也 被 突破 (\D 之 类 
可 以 应 用 在 字符 组 中 ， 而 括号 的 数目 也 不 再 有 限制 )， 正 则 引擎 也 花 了 很 多 功夫 来 优化 ， 不 
过 真正 的 突破 是 在 1994 年 。 


Perl 5 正式 发 布 于 1994 年 10 月 。 这 一 版 的 Pel 经 历 了 全 面 的 修整 , 在 各 个 方面 都 比 原来 强 
上 许多 。 就 正则 表达 式 来 说 ， 它 进行 了 更 多 的 内 部 优化 ， 添 加 了 少量 元 字符 (Oc HRT 


ig 6: James Gosling 后 来 去 开发 他 自己 的 语言 Java，Java 1.4 提供 了 一 个 标准 的 正则 表达 式 包 。 
第 8 章 详细 介绍 了 Java。 


iii 
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代 匹 配 的 能 力 宁 130) 、 非 捕获 的 括号 (745), AMRF (lazy) 的 量词 (7141), MEH 
视 功 能 (了 60)， 以 及 /x 量词 (772) ( 注 7)。 


这 些 新 增 功能 的 意义 并 不 限于 功能 本 身 ， 更 重要 的 是 ， 这 些 “ 新 增 ”的 修改 使 正则 表达 式 
本 身 成 为 一 种 强大 的 编程 语言 ， 并 为 它 提 供 了 进一步 的 发 展 空间 。 


新 增 的 非 捕获 型 括号 和 顺序 环视 结构 都 需要 新 的 表达 方式 。 而 (…) 、[…] 、<…> 和 1{…} 都 已 
经 有 了 含义 ， 所 以 Larry 采用 了 我 们 今天 使 用 的 “(? ”表示 法 。 这 个 表示 法 并 不 好 看 ， 不 过 
在 之 前 的 Perl 正则 表达 式 中 这 是 不 合 规 则 的 组 合 ， 所 以 添加 起 来 完全 没有 障碍 。Larry th Fil 
匈 到 ， 将 来 可 能 还 需要 新 增 其 他 的 功能 ， 所 以 他 对 “(?” 之 后 的 字符 做 了 限制 ， 这 样 就 能 
保留 某 些 字符 ， 用 于 将 来 更 多 的 功能 。 


之 后 的 各 版 Perl 越 来 越 健壮 ， 错 误 越 来 越 少 ， 内 部 优化 越 来 越 棒 ， 添 加 了 越 来 越 多 的 新 特 
性 。 我 相信 ， 本 书 的 第 一 版 也 为 此 做 了 小 小 的 贡献 ， 因 为 郧 人 研究 和 测试 了 正则 表达 式 相 
关 的 特性 ， 并 将 结果 告知 Larry 和 Perl Porters group， 为 改进 提供 了 反馈 。 


后 来 添加 的 新 特性 包括 逆序 环视 功能 (了 60),“ 固 化 ”分 组 (“atomic” grouping 7139), 

和 Unicode 支持 。 新 添加 的 条 件 判 断 结构 更 是 把 正则 表达 式 提升 到 了 一 个 新 的 层次 (“140)， 
它 容许 用 户 在 正则 表达 式 中 进行 if-then-else 的 条 件 判断 和 控制 。 如 果 这 些 还 不 够 强大 的 话 ， 
新 的 结构 其 至 容许 程序 员 在 正则 表达 式 中 运行 Perl 代码 ， 正 则 表达 式 和 程序 代码 之 间 的 界 
限 已 经 不 复 存 在 了 (327)。 本 书 中 使 用 的 Perl 的 版 本 为 5.8.8。 


流派 的 部 分 整合 


具有 先 见 之 明 的 Perl 5 完全 契合 了 互联 网 革命 的 节拍 。Perl 的 初衷 是 文本 处 理 ， 而 Web 页 
的 生成 其 实 正 是 文本 处 理 ， 所 以 Perl 迅速 成 为 了 开发 Web 程序 的 语言 。Perl 广 受 欢迎 ， 其 
中 强大 的 正则 流派 也 是 如 此 。 


其 他 语言 的 开发 人 员 当 然 不 会 视而不见 ， 最 终 在 某 种 程度 上 “兼容 Per (Perl compatible) 
的 正则 表达 式 包 出 现 了 。Tcl、Python、.NET、Ruby、PHP、C/C++ 都 有 各 自 的 正则 表达 式 
包 ，jJava 语言 中 还 有 多 个 正则 表达 式 包 。 


注 7: 我 写 过 一 篇 文章 来 谈 长 而 复杂 的 正则 表达 式 ， 为 了 保持 清晰 ， 我 对 正则 表达 式 进行 了 “ 美 
观 的 排版 "。Larry 见 到 之 后 觉得 在 Perl 代码 中 这 样 做 会 很 方便 ， 于 是 就 沪 加 了 /Xx。 这 样 说 
来 ， 其 中 还 有 本 人 的 功劳 。 
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另 一 种 形式 的 整合 始 于 1997 年 (凑巧 的 是 , 本 书 的 第 一 版 也 在 当年 面世 ) , 当时 Philip Hazel 
开发 了 PCRE， 这 是 一 套 兼 容 Per 正则 表达 式 的 库 ，PCRE 的 正则 引擎 质量 很 高 ， 全 面 仿制 
Perl 的 正则 表达 式 的 语法 和 语义 。 其 他 的 开发 人 员 可 以 把 PCRE 整合 到 自己 的 工具 和 语言 
中 ， 为 用 户 提供 丰富 而 且 极 具 表 现 力 (也 是 众所周知 ) 的 各 种 正则 功能 。 许 多 流行 的 软件 
都 使 用 了 PCRE， 例 如 PHP、Apache 2、Exim、Postfix 和 Nmap ( 注 8)。 


本 书 对 应 的 版 本 


R 3-2 列 出 了 本 书 中 使 用 的 工具 和 库 的 版 本 信息 。 更 老 的 版 本 可 能 功能 更 少 ，bug 更 多 ,新 
的 版 本 则 会 提供 更 多 的 特性 ， 并 修正 之 前 的 bug (当然 也 可 能 多 出 新 的 bug)。 


表 3-2: 本 书 中 提 到 的 一 些 工 具 的 版 本 





GNU awk 3.1 java.util.regex (JDK 1.5， 也 叫 5.0) Procmail 3.22 
GNU egrep/grep 2.5.1 NET as 2.0 Python 2.3.5 
GNU Emacs 21.3.1 PCRE 6.6 Ruby 1.8.4 
flex 2.5.31 Perl 5.8.8 GNU sed 4.0.7 
MySQL 5.1 PHP (preg routine) 5.1.4/4.4.3 Tel 8.4 

最 初 印象 

Ata Glance 


我 们 用 一 张 表格 来 比较 常见 工具 软件 在 几 方 面 的 功能 ， 以 便 理解 仍然 存在 的 差异 。 表 3-3 
提供 了 若干 工具 软件 的 正则 表达 式 所 属 流派 在 各 方面 的 简要 信息 。 


其 他 书籍 通常 在 比较 各 款 工 具 软 件 时 ， 也 会 包含 表 3-3 之 类 的 表格 。 但 是 , 这 张 表 只 是 冰山 
一 角 一 一 列 出 的 每 一 种 特性 的 背后 ， 都 有 许多 重要 的 知识 。 


最 重要 的 是 程序 会 不 断 变化 。 举 例 来 说 ，Tcl 以 前 是 不 支持 反 向 引用 和 单词 分 界 符 的 ， 但 是 
现在 支持 。 最 开始 ， 用 来 表示 单词 分 界 符 的 是 难看 的 [:<:] 和 [:>:]， 至 今 仍 是 这 样 ， 尽 管 
这 种 表示 法 已 经 废弃 ， 取 代 它 的 是 后 来 添加 的 \m、\M 和 \y (单词 起 始 、 单 词 结束 ， 或 者 两 
HEL). 


同样 ，grep 和 egrep 并 没有 单一 的 作者 ， 只 要 愿意 ， 任 何人 都 可 以 开发 ， 也 能 修改 到 符合 到 
作者 期 望 的 任何 流派 。 人 人 都 希望 按照 自己 的 意愿 来 ， 人 性 就 是 如 此 (例如 ， 许 多 常用 工 


注 8: PCRE 在 下 面 的 地 址 有 免费 提供 ftp//ftp.csx.cam.ac.uk/pub/software/programming/pcre/, 


www.TopSage.com 


92 第 3 章 : 正则 表达 式 的 特性 和 流派 概览 


表 3-3: 若干 常用 工具 的 Flavor 的 (非常 ) 简要 考察 
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FLAY GNU 版 本 ， 比 其 他 版 本 更 强大 ， 也 更 健壮 )。 


或 许 与 列 出 的 特性 一 样 重要 的 是 流派 之 间 的 许多 细微 (有些 并 非 细 微 ) 差别 。 从 表格 来 看 ， 
Perl、.NET 和 Java 的 正则 表达 式 似 乎 是 一 样 的 ， 而 实际 情况 却 远 不 是 这 样 。 针 对 表 3-3, 
读者 可 能 提出 的 问题 包括 : 


。 ” 星 号 之 类 的 量词 能 否 作用 于 括号 之 内 的 子 表达 式 ? 


。 ”点 号 能 否 匹配 换行 符 ? 排除 型 字符 组 能 否 匹 配 换行 符 ? 以 上 两 者 能 否 匹配 NUL F 
符 ? 


© 47A (line anchor) 是 名 符 其 实 的 吗 ( 例 如 ,他 们 能 否 识别 目标 字符 串 内 部 的 换行 符 )? 
它们 算 正则 表达 式 中 的 基础 级 别 (first-class) 的 元 字符 吗 ? 还 是 只 能 应 用 在 某 些 结构 
中 ? 


。 ”字符 组 内 部 能 出 现 转 义 字符 吗 ? 字符 组 内 部 还 容许 或 不 容许 出 现 哪 些 字符 ? 


。 ”括号 能 够 戏 套 吗 ? 如果 是 ， 贱 套 的 深度 是 否 有 限制 呢 (还 有 个 问题 是 ， 一 共 容 许 出 现 
多 少 括号 呢 ) 2 


。 ”如 果 容 许 反 向 引用 ， 在 进行 不 区 分 大 小 写 的 匹配 时 ， 反 向 引用 能 顺利 进行 吗 ? 在 极端 
的 情况 下 ， 反 向 引用 的 “行为 ”有 意义 吗 ? 


。 ”是否 可 以 出 现 八进制 的 转 义 字符 \123? 如 果 是 ， 怎 么 区 分 它 和 反 向 引用 呢 ? 十 六 进 制 
的 转 义 字符 呢 ? 这 种 支持 是 正则 引擎 提供 的 ， 还 是 由 其 他 工具 提供 的 ? 
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。 w 只 支持 数字 和 字符 ， 还 是 包括 其 他 字符 ? (R 3-3 列 出 的 支持 \w 的 工具 对 \w 有 不 
同 的 解释 )。 不 同 的 单词 分 界 符 元 字符 对 构成 “单词 分 界 符 ”的 字符 的 定义 不 一 样 ，\w 
是 否 与 它们 保持 一 致 ?x 它们 是 按照 locale 的 定义 昵 ， 还 是 支持 Unicode? 


即使 表 3-3 这 样 的 介绍 这 样 简单 ， 我 们 仍然 必须 记得 这 些 问 题 。 如 果 你 能 意识 到 ， 在 看 起 来 
光鲜 的 外 表 下 面 渤 藏 着 许多 问题 ， 就 容易 保持 清醒 的 头脑 来 应 付 它们 。 


在 本 章 开头 我 们 已 经 提 到 ， 许 多 问题 只 是 语法 的 差异 ， 但 也 有 许多 并 非 如 此 。 比 方 说 ， 了 
解 到 egrep H) ' (Jul | July); 7 GNU Emacs 中 必须 写成 (Jul\1July\) 之后, 你 或 许 会 认 
为 所 有 的 问题 都 是 这 样 ， 但 事实 并 非 如 此 。 在 匹配 尝试 过 程 中 的 语义 差异 (RH, BLE 
看 起 来 是 在 匹配 尝试 过 程 中 的 ) 通常 被 忽视 ， 但 极其 重要 的 问题 是 ， 它 也 解释 了 为 什么 两 
个 看 起 来 一 样 的 表达 式 会 获得 截然 不 同 的 结果 : 一 个 总 是 匹配 ‘Jui' ， 即 使 目标 文本 是 
'July"。 这 些 看 起 来 毫 无 区 别 的 语义 也 解释 了 ， 为 什么 两 个 顺序 相反 的 正则 表达 式 ; 
(gulylyruljj 和 仆 (ouly\loul\) 能 够 取得 同样 的 匹配 结果 。 其 实 ， 整 个 下 一 章 都 在 讲解 
这 类 问题 。 


当然 ， 一 款 工 具 软件 能 够 利用 正则 表达 式 实 现 的 功能 ， 通 常 比 它 所 属 的 正则 流派 更 重要 。 
例如 ， 就 算 Perl 的 正则 表达 式 功 能 不 及 egrep， 在 使 用 正则 表达 式 时 ，Perl 所 具有 的 简便 性 
却 更 有 价值 。 我 们 会 在 本 章 逐 个 介绍 各 种 特性 ， 并 在 后 面 各 章 座 入 讲解 几 种 编程 语言 。 


正则 表达 式 的 注意 事项 和 处 理 方式 


Care and Handling of Regular Expressions 


本 章 开 头 列 出 的 第 二 点 需要 注意 的 就 是 ， 正则 表达 式 的 句法 规则 (syntactic packaging), € 
告诉 应 用 程序 :“ 嘿 , 这 儿 有 一 个 正则 表达 式 , 我 需要 你 做 这 些 "。egrep 是 一 个 简单 的 例子 ， 
因为 正则 表达 式 是 作为 命令 行 参 数 传 过 去 的 。 其 他 的 “语法 诀窍 (syntactic sugar)”, fán 
我 在 第 1 章 坚 持 使 用 的 单 引 号 ， 是 因为 考虑 到 shell， 而 不 是 egrep。 复 杂 的 系统 ， 例 如 程序 
设计 语言 中 的 正则 表达 式 ， 需 要 更 多 的 包装 ， 系 统 才 能 知道 哪些 部 分 是 正则 表达 式 ， 需 要 
如 何 处 理 。 


下 一 步 是 考察 我 们 能 够 对 匹配 结果 进行 的 操作 。 同 样 ，e8grep 在 这 方面 很 简单 ， 因 为 它 做 的 
都 是 同样 的 事情 (显示 包含 匹配 文本 的 行 )， 但 是 ， 我 们 在 前 一 章 的 开头 已 经 说 过 ， 真 正 有 
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意义 的 是 更 复杂 的 操作 。 其 中 最 基本 的 是 匹配 (检查 一 个 正则 表达 式 是 否 能 匹配 一 个 字符 
串 ， 或 者 从 字符 串 中 提取 信息 ) ， 以 及 查找 和 替换 ， 根 据 匹 配 的 结果 修改 字符 种。 这 些 操 作 
可 以 以 多 种 形式 进行 ， 不 同 的 语言 对 此 也 有 不 同 的 规定 。 


一 般 来 说 ， 程 序 设计 语言 有 3 种 处 理 正 则 表达 式 的 方式 :集成 式 (integrated) 、 程 序 式 

(procedural) 和 面向 对 象 式 (object-oriented) 。 在 第 一 种 方式 中 ,正则 表达 式 是 直接 内 建 在 
语言 之 中 的 ，Perl 就 是 如 此 。 但 是 在 其 他 两 种 方式 中 ， 正 则 表达 式 不 属于 语言 的 低级 语法 。 
相反 ， 普 通 的 函数 接收 普通 的 字符 串 ， 把 它们 作为 正则 表达 式 进 行 处 理 。 由 不 同 的 函数 进 
行 不 同 的 、 关 系 到 一 个 或 多 个 正则 表达 式 的 操作 。 大 多 数 语言 (不 包括 Perl) 采用 的 都 是 这 
两 种 方式 之 一 ， 包 括 Java, .NET, Tcl, Python, PHP, Emacs, lisp 和 Ruby, 


集成 式 处 理 


Integrated Handling 


我 们 已 经 看 过 Pel 的 集成 式 处 理 方法 ， 例 如 第 55 页 的 例子 : 


if (Sline =~m/*Subject: (.*)/i) { 
Ssubject = §1; 
} 


为 清楚 起 见 ， 我 用 斜体 标注 变量 名 ， 正 则 表达 式 相关 的 部 分 则 用 粗 体 标注 ， 正 则 表达 式 本 
身 用 下 画 线 标注 。Perl 会 把 正则 表达 式 “Subject:…(.*)1 应 用 到 $line 保存 的 文本 中 ， 如 
果 能 够 匹配 ， 则 执行 下 面 的 程序 段 。 其 中 ， 变 量 S$1 代表 括号 内 的 子 表 达 式 匹配 的 文本 ， 将 
EMRA subject, 


另 一 个 集成 式 处 理 的 例子 是 把 正则 表达 式 作为 配置 文件 的 一 部 分 ， 例 如 procmail (Unix F 
的 一 个 邮件 处 理 程序 )。 在 配置 文件 中 ， 正 则 表达 式 用 于 将 邮件 信息 发 布 到 对 应 的 处 理 程序 
中 。 这 个 例子 比 Perl 更 简单 ， 因 为 不 需要 指明 操作 对 象 (邮件 信息 )。 


这 两 个 例子 背后 的 原理 要 复杂 一 些 。 集 成 式 处 理 方法 减轻 了 程序 员 的 负担 ， 因 为 它 隐 藏 了 
一 些 工作 ， 例 如 正则 表达 式 的 预 处 理 ， 准 备 匹 配 ， 应 用 正则 表达 式 ， 返 回 结果 。 省 略 这 些 
操作 减轻 了 常见 任务 的 完成 难度 ， 不 过 我 们 之 后 将 会 看 到 ， 有 些 情 况 下 ， 这 样 处 理 反而 更 
慢 ， 更 复杂 。 


不 过 ， 在 深入 细节 之 前 ， 我 们 先 打 量 打量 其 他 的 处 理 方式 ， 然 后 再 来 揭示 这 些 被 隐藏 的 步 
R. 
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程序 式 处 理 和 面向 对 象 式 处 理 


Procedural and Object-Oriented Handling 


程序 式 处 理 和 面向 对 象 式 处 理 非常 相似 。 这 两 种 方式 下 ， 正 则 功能 不 是 由 内 建 的 操作 符 来 
提供 ， 而 是 由 普通 函数 (函数 式 ) 或 构造 函数 及 方法 (面向 对 象 式 ) 来 提供 的 。 这 种 情况 
下 ， 并 没有 专属 于 正则 表达 式 的 操作 符 ， 只 有 平常 的 字符 串 ， 普 通 的 函数 、 构 造 函 数 和 方 
法 把 这 些 字 符 串 作为 正则 表达 式 来 处 理 。 


下 面 几 节 给 出 了 几 个 Java, VB.NET, PHP 和 Python 的 例子 。 


Java 中 的 正则 处 理 


现在 来 看 “Subject” 例 子 在 Java 中 的 实现 方式 , 使 用 Sun 提供 的 java.util.regex 包 (第 
8 章 详细 介绍 Java)。 


import java.util.regex.*; // 这 样 使 用 regex 包 中 的 类 更 加 容易 


wwe 


Pattern r = Pattern.compile("“Sujbcet: (.*)", Pattern.CASE_INSENSITIVE) ; 


Q 
@ Matcher m = r.matcher (line); 
@® if (m.find()) { 
© subject = m.group(1); 

} 


我 仍然 用 斜体 标注 变量 名 ， 粗 体 标 注 正 则 表达 式 相 关 的 元 素 ， 下 画 线 标注 正则 表达 式 本 身 。 
准确 地 说 ， 是 用 下 画 线 标注 表示 作为 正则 表达 式 处 理 的 普通 的 字符 串 。 


这 个 类 说 明了 面向 对 象 式 处 理 方法 , 它 使 用 Sun 提供 的 java.util. regex 包 的 两 个 类 一 一 
Pattern Ñ] Matcher, 其 中 执行 的 操作 有 : 


@ 检查 正则 表达 式 ， 将 它 编 译 为 能 进行 不 区 分 大 小 匹配 的 内 部 形式 (internal form), 
得 到 一 个 “Pattern” 对 象 。 


o 将 它 与 欲 匹 配 的 文本 联系 起 来 ， 得 到 一 个 “Matcher” 对 象 。 
© ”应 用 这 个 正则 表达 式 ， 检 查 之 前 与 之 建立 联系 的 文本 ， 是 否 存在 匹配 ， 返 回 结果 。 
© 如果 存在 匹配 ， 提 取 第 一 个 捕获 括号 内 的 子 表 达 式 匹配 的 文本 。 


任何 使 用 正则 表达 式 的 语言 都 需要 进行 这 些 操作 ， 或 是 显 式 的 explicitly) RAMAN 
(implicitly), Perl 隐藏 了 大 多 数 细节 ，jJava 的 实现 方式 则 暴露 这 些 细节 。 

函数 式 处 理 的 例子 。 不 过 ，Java 也 提供 了 一 些 函 数 式 处 理 的 “便捷 图 数 (convenience 
functions)” 来 节省 工作 量 。 用 户 不 再 需要 首先 声称 一 个 正则 表达 式 对 象 ， 然 后 使 用 该 对 象 
的 方法 来 操作 。 下 面 的 静态 函数 提供 了 临时 对 象 ， 执 行 完 之 后 ， 这 些 对 象 就 会 被 自动 抛弃 。 
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这 个 例子 用 来 说 明 Pattern.matches(…) 函数 : 


if {! Pattern.matches("\\s*", line)) 
{ 
// ... 如 果 1ine 不 是 空 行 ... 

} 
这 个 函数 包装 了 一 个 隐 式 的 '^…$; 的 正则 表达 式 , 返回 一 个 Boolean 值 , 说 明 它 是 否 能 够 匹 
配 输入 的 字符 串 。Sun 的 package 同时 提供 程序 式 和 面向 对 象 式 的 处 理 方式 是 常见 的 做 法 。 
两 种 接口 的 差别 在 于 便捷 程度 (程序 式 处 理 方 式 在 完成 简单 任务 时 更 容易 ， 但 处 理 复 杂 任 
务 则 很 麻烦 )、 功 能 (程序 式 处 理 方式 的 功能 和 选项 通常 比 对 应 的 面 问 对 象 式 的 要 少 ) 和 效 
率 (在 任何 情况 下 ， 两 类 处 理 方式 的 效率 都 不 同一 一 第 6 章 详细 论述 这 个 问题 )。 


Sun 有 时 也 会 把 正则 表达 式 整合 到 Java 的 其 他 部 分 ， 例 如 上 面 的 例子 可 以 使 用 string 类 的 
matches 功能 来 完成 : 

if (! line.matches("\\s*", )) 

{ 

// ... 如 果 1ine 不 是 空 行 ... 

} 
同样 ， 这 种 办 法 不 如 合理 使 用 面向 对 象 的 程序 有 效率 ， 所 以 不 适宜 在 对 时 间 要 求 很 高 的 循 
环 中 使 用 ， 但 是 “随手 (casual)” 用 起 来 非常 方便 。 


VB 和 .NET 语言 中 的 正则 处 理 


尽管 所 有 的 正则 引擎 都 能 执行 同样 的 基本 操作 ， 但 即使 是 采用 同样 方法 的 各 种 实现 方式 
(implementation) 提供 给 程序 员 完 成 的 任务 ， 以 及 使 用 服务 的 方式 也 各 有 不 同 。 下 面 是 
VB.NET +f) “Subject” Pil (.NET 在 第 9 章 详 细 论 述 ): 


Imports System.Text.RegularExpressions ' 这 样 访问 正则 表达 式 的 类 会 更 方便 


Wee 


Dim R as Regex = New Regex{"^Subject: (.*)", RegexOptions.IgnoreCase) 
Dim M as Match = R.Match( line) 
If M. Success 
subject = M.Groups(1).Value 
End If 


总 的 来 说 ， 它 很 类 似 Java 的 例子 ， 只 是 .NET 将 第 @ 和 第 @ 步 结合 为 一 步 ， 第 @ 步 需要 一 个 
确定 的 值 。 为 什么 会 有 这 样 的 差异 ? 两 者 并 没有 本 质 上 的 优 劣 之 分 一 一 只 是 开发 人 员 采 用 
了 自己 当时 觉得 最 好 的 方式 ( 稍 后 我 们 会 看 到 这 点 )。 


Ii 
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NET 同样 提供 了 若干 程序 式 处 理 的 函数 。 下 面 的 代码 用 于 判断 空 行 : 


If Not Regex.IsMatch(Line, “*\s*$") Then 
， 如 果 1ine 不 是 空 行 . . . 
End If 


Java 的 Pattern.matches 图 数 会 自动 在 正则 表达 式 两 端 添加 “…s$， 微 软 则 提供 了 更 为 -- 
RAJK. Java 的 做 法 只 是 对 核心 对 象 的 简单 包装 ， 但 程序 员 需 要 使 用 的 字符 和 变量 更 少 ， 
而 代价 只 是 一 点 点 性 能 下 降 。 


PHP 中 的 正则 处 理 


下 面 是 使 用 PHP 的 preg 套件 中 的 正则 表达 式 函 数 处 理 'Ssubjectj 的 例子 ， 这 是 纯粹 的 函数 
AHA (第 10 章 详细 介绍 PHP). 


if (preg_match('/*Subject: (.*)/i', Sline, Smatches) ) 
$Subject = $matches{1]; 





Python 中 的 正则 处 理 


最 后 我 们 来 看 Python ‘subject, UPI, Python 采用 的 也 是 面向 对 象 式 的 办 法 。 


import re; 
R= re.compile("“Subject: (.*)", re.IGNORECASE) ; 
M = R.search( line) 
if M: 
subject = M.group(1) 


这 个 例子 与 我 们 之 前 看 过 的 非常 类 似 。 





差异 从 何 而 来 


为 什么 不 同 的 语言 采用 不 同 的 办 法 呢 ? 可 能 有 语言 本 身 的 原因 ， 不 过 最 重要 的 因素 还 是 正 
则 软件 包 的 开发 人 员 的 思维 和 技术 水 准 。 举 例 来 说 ，Java 有 许多 正则 表达 式 包 ， 因 为 这 些 
作者 都 希望 提供 Sun 未 提供 的 功能 。 每 个 包 都 有 自己 的 强项 和 弱项 ， 不 过 有 趣 的 是 ， 每 个 
软件 包 的 功能 设 定 都 不 一 样 ， 所 以 Sun 最 终 决 定 自己 提供 正则 表达 式 包 。 


另 一 个 关于 这 种 差异 的 例子 是 PHP, PHP 包含 了 三 种 完全 独立 的 正则 引擎 ， 每 一 种 都 对 应 
一 套 自己 的 函数 。PHP 的 开发 人 员 在 开发 过 程 中 ， 因 为 对 原 有 的 功能 不 满意 ， 添 加 新 的 软 
件 包 和 对 应 的 接口 函数 套件 来 升级 PHP 核心 (一般 认为 ， 本 书 讲解 的 “preg” 僚 件 是 最 优 
秀 的 ) 。 
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ERMER 


A Search-and-Replace Example 


“Subject” 的 例子 太 简单 ， 还 不 足以 说 明 3 种 方法 之 间 的 差异 。 在 本 节 我 们 将 看 到 更 复杂 
的 例子 ， 它 进一步 揭示 了 不 同 处 理 方 式 在 设计 上 的 差异 。 
在 前 一 章 ,我 们 看 到 了 在 Perl 中 利用 查找 和 替换 将 E-mail 地 址 转换 为 超 链接 的 例子 (了 73) : 


Stext =~ Bf 
\b 
# 把 横 获 的 地 址 保存 到 $1 ... 
( 


\wi-.\w]* # username 
@ 

{[-\w])+(\.[-\w]+)*\.(com|edujinfo) # hostname 
) 


\b 
}{<a href="mailto:$1">$1</a>}gix; 


Perl 的 查找 和 替换 操作 符 是 “ 原 地 生效 ”的 ， 也 就 是 说 ， 替 换 会 在 目标 变量 上 进行 。 其 他 大 
多 数 语言 的 替换 都 是 在 目标 文本 的 副本 上 进行 的 。 如 果 不 需要 修改 原 变量 ， 这 样 操作 就 很 
方便 ， 不 过 如 果 需 要 修改 原 变量 ， 就 得 把 替换 结果 回 传 给 原 变量 。 下 面 给 出 了 一 些 例子 。 


Java 中 的 查找 和 蔡 换 


下 面 是 使 用 Sun 提供 的 java.util.regex 进行 查找 -替换 的 例子 
import java.util.regex.*; // 一 次 性 导入 所 有 需要 用 到 的 类 


Pattern r = Pattern.compile( 
"yp \n" 


+ 
"# 把 捕获 的 地 址 保存 到 $1 ... \n"+ 
"lt \n"+ 
\\w[{-.\\w] * # username \n"+ 
@ \n"+ 
{-\\w)+(\\. 0-\\w) 4) *\\. (comi edu] info) # hostname Anes 
") \n"+ 
"\\b AT 


Pattern.CASE_INSENSITIVE| Pattern.COMMENTS) ; 
Matcher m = r.matcher(text); 
text = m.replaceAll("<a href=\"mailto:$1\">$1</a>"); 


请 注意 ， 字 符 串 中 的 每 个 “\、” 都 必须 转 义 为 “"\、”， 所 以 ， 如 果 我 们 像 本 例 中 一 样 用 文本 
字符 串 来 生成 正则 表达 式 ，\w 就 必须 写成 “\\w'。 在 调试 时 ，system.out.println(r. 
pattern()) 可 以 显示 正则 函数 确切 接收 到 的 正则 表达 式 。 我 在 这 个 正则 表达 式 中 包括 换行 
符 的 原因 是 ， 这 样 看 起 来 很 清楚 。 另 一 个 原因 是 ， 每 个 #3 引入 一 段 注释 ， 直 到 该 行 结束 ， 所 
以 ， 为 了 约束 注释 ， 必 须 设 定 某 些 换行 符 。 
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Perl 使 用 /g、/i、/x 之 类 的 符号 来 表示 特殊 的 条 件 (这 些 修饰 符 分 别 代表 全 局 葵 换 、 不 区 
分 大 小 写 和 宽松 排列 模式 了 135)，java .util .regex 则 使 用 不 同 的 函数 (replaceA1ll 而 不 
是 xeplace), 以 及 给 函数 传递 不 同 的 标志 位 (flag ) 参 数 ( 例 如 Pattern.CASE_INSENSITIVE 


和 Pattern.COMMENTS) 来 实现 。 


VB.NET 中 的 查找 和 蔡 换 
VB.NET 的 程序 与 Java 的 类 似 : 


Dim R As Regex = New Regex _ 

("\b 

" (24 将 捕获 的 地 址 保存 到 $1 ...) 

"( 

" \wf-.\w]* (?# username) 


" [-\w]4+(\.[-\w]+)*\. (comiedu|info) (?# hostname) 
") 

w \b + =~ 
RegexOptions.IgnoreCase Or RegexOptions.IgnorePatternWhitespace) 


3 =: 2a 3 3 24 3 
RR RM RM RM RR 


text = R.Replace(text, "<a href=""mailto:${1}"">$§{1}</a>") 


因为 VB.NET 的 字符 串 文字 (literal) 不 便于 操作 (它们 不 能 跨越 多 行 ， 也 很 难 在 其 中 加 入 
换行 符 ) ,长 一 点 的 正则 表达 式 使 用 起 来 不 如 其 他 语言 方便 。 另 一 方面 ,因为 “\' 不 是 VB.NET 
中 的 字符 捉 的 元 字符 ， 这 个 表达 式 看 起 来 要 更 清楚 些 。 双 引号 是 VB.NET 字符 串 中 的 元 字 
符 ， 为 了 表示 这 个 字符 ， 我 们 必须 使 用 两 个 紧 挨 着 的 双 引 号 。 


PHP 中 的 查找 和 替换 
下 面 是 PHP 中 的 查找 和 替换 的 例子 : 
Stext = preg _replace('{ 
\b 
# 把 捕获 的 地 址 保存 到 S1 ... 
( 
\w[-.\w]* # username 
id 
[-\w)+(\. [-\w]+)*\. (com! edu| info) # hostname 
) 
\b 
}ix', 
‘<a href="mailto:$1">$1</a>', # replacement 字符 事 
$text}; 


就 像 Java 和 VB.NET 一 样 ， 查 找 和 替换 操作 的 结果 必须 回 传 给 scext ， 除 去 这 一 点 ， 这 个 
例子 和 Perl 的 很 相似 。 


ill 
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其 他 语言 中 的 查找 和 替换 


Search and Replace in Other Languages 
下 面 我 们 简要 看 看 其 他 传统 工具 软件 和 语言 中 查找 和 替换 的 例子 。 


Awk 


Awk 使 用 的 是 集成 式 处 理 方法 ，/regex/， 来 匹配 当前 的 输入 行 ， 使 用 “var ~ …” 来 匹配 
其 他 数据 。 你 可 以 在 Perl 中 看 到 这 种 匹配 表示 法 的 影子 (不 过 ，Perl 的 替换 操作 符 模 仿 的 
是 sed), Awk 的 早期 版 本 不 支持 正则 表达 式 替 换 , 不 过 现在 的 版 本 提供 了 sub (…) 操作 符 。 


sub(/mizpel/, "misspell") 


它 会 把 正则 表达 式 mizpel, 应 用 到 当前 行 ， 将 第 一 个 匹配 替换 为 misspel。 请 注意 , 在 
Perl (和 sed) 中 的 对 应 做 法 是 s/mizpel/misspell/, 


如 果 要 对 该 行 的 所 有 匹配 文本 进行 替换 ，Awk 使 用 的 不 是 /g 修饰 符 ， 而 是 另 一 个 运算 符 : 
gsub(/mizpel/, “misspell”), 


Tcl 


Tel 采用 的 是 程序 式 处 理 方法 ， 对 不 熟悉 Tcl 引用 惯例 (quoting conventions) 的 人 来 说 可 能 
很 迷惑 。 如 果 我 们 要 在 Tel 中 修正 错误 的 拼写 ， 可 以 这 样 : 


regsub mizpel Svar misspell newvar 


它 会 检查 变量 var PILAR, 把 mizpel, 的 第 一 处 匹配 替换 为 misspell, 把 替换 后 的 字 
符 串 存 人 变量 newvar (这 个 变量 并 没有 以 s 开 头 )。Tel 接收 的 第 一 个 参数 是 正则 表达 式 ， 
第 二 个 参数 是 目标 字符 串 ， 第 三 个 是 replacement 字符 种， 第 四 个 是 目标 变量 的 名 字 。Tel 
的 regsub 同样 可 以 接收 可 能 出 现 的 标志 位 ， 例 如 -all 用 来 进行 全 局 替换 ， 而 不 是 只 替换 
第 一 处 匹配 文本 。 


regsub -all mizpel 5var misspell newvar 


同样 ，-nocase 选项 告诉 正则 引擎 进行 不 区 分 大 小 写 的 匹配 (ESF egrep 的 -i SR, K 
者 Perl 的 /i 修饰 符 )。 


GNU Emacs 


GNU Emacs (下 文中 简称 Emacs) 是 功能 强大 的 文本 编辑 器 ， 它 可 以 使 用 elisp (Emacs lisp) 
作为 内 建 的 编程 语言 。 它 提供 了 正则 表达 式 的 程序 式 处 理 接 口 ， 以 及 数量 众多 的 函数 来 提 
供 各 种 服务 。 其 中 主要 的 一 种 是 “正则 表达 式 搜 索 - 前 进 (re-search-forward)”， 接收 参 
数 为 普通 字符 串 ， 将 它 作 为 正则 表达 式 来 处 理 。 然 后 从 文本 的 “当前 位 置 ” 开 始 搜索 , 直 
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到 第 一 处 匹配 发 生 ， 或 者 如 果 设 有 匹配 ， 就 一 直 前 进 到 字符 串 的 末尾 (用 户 调用 编辑 器 的 
“正则 表达 式 搜 索 (regexp search) ”的 功能 时 ， 就 会 执行 re-search-forward), 


如 表 3-3 (792) 所 示 ，Emacs 所 属 的 正则 流派 严重 依赖 反 斜 线 。 例 如 , \<\([a-zl+\ 儿 
([\n'\tj\l<[i^>]+>\)+N\1\>! 是 查找 重复 单词 的 表达 式 ， 可 以 用 来 解决 第 1 章 的 问题 。 但 
我 们 不 能 直接 使 用 这 个 正则 表达 式 ， 因 为 Emacs 的 正则 引擎 不 能 识别 \t 和 \n。 不 过 Emacs 
中 的 双 引 号 字符 串 则 可 以 ， 它 会 把 这 些 标 记 转 换 为 我 们 需要 的 制 表 符 和 换行 符 ， 传 给 正则 
引擎 。 在 使 用 普通 字符 串 提 交 正 则 表达 式 时 ， 非 常 有 用 。 但 其 缺陷 一 一 尤其 是 elisp 的 正则 
表达 式 的 缺陷 一 一 在 于 ， 此 流派 过 分 依赖 反 斜 线 了 ， 最 终 得 到 的 正则 表达 式 好 像 插 满 了 牙 
签 。 下 面 是 查找 下 一 组 重复 单词 的 函数 : 


(defun FindNextDbl () 


“move to next doubled word, ignoring <--> tags" (interactive) 
(re-search-forward "\\<\\(a-zZJ4#\\)\\C[\n \t] \\Il<{*>] 4>\\)4\\1L\\>") 
Wai 
) 


这 段 程序 加 上 (aefine-key global-map "\C-x\C-d" 'FindNextDb1), 就 可 以 使 用 “Control- 
x+ Control-d” 来 迅速 查找 重复 单词 了 。 


注意 事项 和 处 理 方式 : 小 结 


Care and Handling: Summary 


我 们 已 经 看 到 ， 函 数 很 多 ， 内 部 的 机 制 也 很 多 。 如 果 你 不 熟悉 这 些 语言 ， 可 能 现在 还 有 些 
困惑 。 不 过 请 不 必 担心 。 学 习 任何 特定 的 工具 软件 都 比 学 习 原 理 要 容易 。 
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Strings, Character Encodings, and Modes 


在 深入 讲解 常见 的 各 类 元 字符 之 前 ， 还 需要 了 解 一 些 重要 的 问题 :作为 正则 表达 式 的 字符 
串 ， 字 符 编 码 和 匹配 模式 。 


这 些 概念 并 不 复杂 ， 在 理论 和 实践 中 都 是 如 此 。 不 过 ， 对 其 中 的 大 多 数 来 说 ， 因 为 各 种 实 
现 方式 之 间 存 在 细小 差异 ， 我 们 很 难 预先 知道 它们 准确 的 实际 使 用 方式 。 下 一 节 涵 盖 了 若 
干 你 将 面 对 的 常见 问题 ， 以 及 一 些 复杂 的 问题 。 


作为 正则 表达 式 的 字符 串 


Strings as Regular Expressions 


这 个 概念 并 不 复杂 : 对 除 Perl, awk, sed 之 外 的 大 多 数 语言 来 说 ， 正 则 引擎 接收 的 是 以 普 
通 字 符 串 形式 提供 的 正则 表达 式 ， 这 些 字符 申 文 字 类 似 “^From: (.*)”。 对 大 多 数 程序 员 ， 
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尤其 新 人 行 的 程序 员 来 说 ， 有 一 点 难以 理解 : 在 构造 作为 正则 表达 式 的 字符 串 时 ， 他 们 还 
需要 留意 编程 语言 定义 的 字符 串 元 字符 。 


每 种 语言 的 字符 串 文 字 都 规定 了 自己 的 元 字符 ， 有 些 语 言 甚至 包含 了 多 种 字符 串 文字 ， 所 
以 不 存在 普 适 性 的 规则 ， 不 过 背后 的 概念 是 一 样 的 。 许 多 语言 的 字符 串 文字 能 够 识别 转 义 
序列 ， 例 如 \z、\\ 和 \x2A， 在 生成 字符 串 对 应 的 数据 时 ， 会 正确 地 解释 这 些 记 号 。 与 正则 
表达 式 相关 的 最 常见 的 一 点 就 是 ， 在 字符 串 文字 中 ， 必 须 使 用 两 个 紧 挨 在 一 起 的 反 斜 线 才 
能 表示 正则 表达 式 中 的 反 斜 线 。 例 如 ,为 了 表示 正则 表达 式 中 的 "\n,， 必须 在 字符 串 中 使 用 


Se 


如 果 筷 了 添加 反 斜 线 , 而 只 是 使 用 " \n", 在 大 多 数 语 言 中 , 结果 四 ,恰好 等 于 "nj (译注 2)。 
不 过 ， 事 实 上 ， 如 果 正 则 表达 式 是 宽松 排列 格式 的 /x 类 型 , 四 ERREAZ, n 仍然 留 在 
正则 表达 式 中 , 匹配 一 个 空 行 。 忘 记 这 一 点 的 程序 员 真 该 打 。 下 面 的 表 3-4 列 出 了 一 些 包括 
\t 和 \x2A (2A 是 “*" 符号 的 ASCII 编码 ) 的 例子 。 表 格 中 的 第 二 对 例子 展示 了 忽略 字符 
串 文字 元 字符 会 导致 的 意外 结果 。 


表 3-4: 关于 字符 串 文字 的 若干 例子 













\t\x2a” 
‘\t\x2ay 
制 表 待 和 之 后 的 星 号 
制 表 符 和 之 后 的 星 号 


语言 不 同 ,字符 串 文字 也 不 相同 , 不 过 有 的 差异 大 到 连 “、” 都 不 算 元 字符 。 例 如 ，VB.NET 
的 字符 串 文字 只 有 一 个 元 字符 ， 就 是 双 引 号 。 下 一 节 介 绍 了 几 种 常用 语言 的 字符 串 文字 。 
无 论 规定 如 何 ， 我 们 在 使 用 时 都 不 要 忘记 考虑 “在 编程 语言 的 字符 串 处 理 结束 之 后 ， 正 则 
引擎 接收 到 的 是 什么 ? ” 


作为 正则 表达 式 
能 够 匹配 












Java 的 字符 串 

Java 的 字符 串 跟 上 面 提 到 的 很 类 似 ， 它 们 由 双 引 号 标注 ， 反 斜 线 是 元 字符 。 支 持 常 见 的 字 
TAE, fán t (MAF), n’ (TRF), V (ERRES). FR HRR 
支持 的 反 斜 线 转 义 序列 会 出 错 。 


译注 2: 此 时 "\n" 是 在 字符 事 中 识别 的 ， 而 不 是 由 正则 引擎 识别 。 
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VB.NET 的 字符 串 


VB.NET 中 的 字符 串 同 样 是 由 双 引 号 标注 的 ,不 过 它们 与 Java 的 字符 串 有 很 大 差别 .VB.NET 
的 字符 串 只 能 识别 一 个 元 字符 : 两 个 连续 的 双 引 号 , 代表 字符 串 中 的 双 引 号 。 例 如 "he saiad 
"nhi""\." 的 值 就 是 he said "hi"\.5, 


CHRIS FT R 


尽管 微软 的 .NET Framework 中 所 有 语言 在 内 部 共享 同一 台 正 则 引擎 ， 但 创建 正则 表达 式 时 
它们 有 各 自 的 规定 。 我 们 刚刚 看 到 ，Visual Basic 的 字符 串 文 字 非 常 简单 。 与 之 不 同 ，C# 语 
言 有 两 种 类 型 的 字符 串 文 字 。 


C# 支 持 与 导论 中 类 似 的 常见 的 双 引 号 字符 串 ,， 只 是 用 “"” 而 不 是 \ 来 表示 双 引 号 。 不 过 ， 
C# 也 支持 “原生 字符 串 (verbatim strings)”( 译 注 3)， 其 形式 为 6"…"。 原 生字 符 串 不 能 识 
别 反 斜 线 序列 ， 不 过 其 中 也 有 一 个 特殊 的 转 义 序列 ， 一 对 双 引 号 表示 目标 字符 串 中 的 一 个 
双 引 号 。 也 就 是 说 ， 你 可 以 使 用 "\\t\\x2aA'" 或 者 @e"\t\x2A'" 来 生成 \t\x2A!。 因 为 这 种 方 
式 很 简单 ， 一 般 都 用 e"…" 的 原生 字符 串 来 表示 正则 表达 式 。 


PHP 的 字符 串 


PHP 也 提供 了 两 种 类 型 的 字符 串 , 不 过 无 一 与 C# 中 的 相同 。 在 PHP 的 双 引 号 字符 串 中 可 以 
使 用 常见 的 反 斜 线 序列 一 一 例如 “\n" ， 但 也 可 以 像 Perl 那样 进行 变量 插值 (977), DAT 
以 使 用 特殊 的 序列 {(…} ， 把 执行 花 括 号 内 代码 的 执行 结果 插入 字符 串 。 


PHP 的 双 引 号 字符 串 的 独特 性 在 于 ， 你 可 能 倾向 于 在 正则 表达 式 中 加 入 多 余 的 反 斜 线 ， 不 
过 PHP 的 另 一 种 特性 能 够 缓解 这 种 现象 。 对 Java 和 C# 的 字符 串 文字 来 说 ， 字 符 串 中 如 果 
出 现 不 能 明确 识别 为 特殊 字符 的 反 斜 线 序列 会 导致 错误 ， 而 在 PHP 的 双 引 号 字符 串 中 ， 这 
种 序列 会 原封 不 动 地 从 字符 串 中 传 过 来 。PHP 的 字符 串 能 够 识别 \t ， 所 以 你 需要 用 “\\t” 
KERA, 不 过 如 果 使 用 “\w”， 我 们 仍然 得 到 "wi, 因为 \w 不 属于 PHP 的 字符 串 能 够 识 
别 的 转 义 序列 。 这 个 额外 的 特性 ， 虽 然 有 时 候 很 顺手 ， 也 增加 了 PHP 双 引 号 字符 串 的 复杂 
程度 ， 所 以 PHP 提供 了 更 加 简单 的 单 引 号 字符 串 。 


PHP 的 单 引 号 字符 串 类 似 VB.NET 字符 串 和 C# 的 e"…" 字 符 申 ,都 属于 “格式 整齐 的 (unclut- 
tered)” FFR, REPARE. Æ PHP 的 单 引 号 字符 串 中 ，\ RBIS, \\ Raa 


译注 3: verbatim 表示 “原封 不 动 的 ， 一 字 不 差 的 "， 故 此 处 翻译 为 “原生 ”。 
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线 。 任 何其 他 字符 〈 包 括 任何 反 斜 线 ) 都 不 会 被 识别 为 特殊 字符 ， 而 会 被 当 作 字符 的 值 。 
也 就 是 说 ，' \t\x2A' 创 建 \t\x2A1。 因 为 单 引号 字符 串 很 简单 ， 用 它 来 表示 PHP 的 正则 表 
达 式 非常 方便 。 


PHP 的 单 引号 字符 串 在 第 10 章 有 详细 讲解 (7445). 


Python 的 字符 串 


Python 提供 了 好 几 种 字符 串 文 字 。 单 引号 和 双 引 号 都 可 以 用 来 创建 字符 串 ， 不 过 与 PHP 不 
同 的 是 ， 这 两 种 方法 没有 区 别 。Python 也 提供 了 “三 重 引用 (triple-quoted)” 的 字符 串 ， 也 
BE '' 或 者 """…"""， 它 们 可 以 包含 未 转 义 的 换行 符 。 这 4 种 类 型 都 支持 常用 的 反 
斜 线 序列 ， 例 如 \n， 不 过 和 PHP 一 样 ， 它 们 也 会 把 不 能 识别 的 反 斜 线 序列 作为 纯 字 符 序列 
来 对 待 。 而 在 Java 和 C# 中 ， 这 些 序列 会 被 出 错 。 


与 PHP 和 C# 一 样 ，Python 也 提供 了 另 一 种 字符 申 文 字 ， 也 就 是 “ 原 字符 串 (raw string)”, 
它 类 似 C# 中 的 e"…"，Python 在 以 上 4 种 表示 法 前 添加 'r' 来 表示 纯 字符 捉 。 例 如 ， 
r"\t\x2A" 表 示 "\t\x2AJ。 与 其 他 语言 不 同 的 是 ， 在 Python UREA, PA RRR 
都 会 保留 ， 即 使 是 用 来 转 义 双 引 号 的 〈 所 以 双 引 号 可 以 保存 在 字符 串 中 ) 也 是 如 此 : r'he 
said \"hi\"\. "表示 he said \"hi\"\.1 在 使 用 正则 表达 式 时 ， 这 并 不 是 一 个 真正 的 问 
W., AA Python 的 正则 表达 式 流 派 把 人 "识别 为 ""， 不 过 如 果 你 喜欢 ， 你 可 以 忽略 这 些 细 
节 ， 使 用 这 4 种 纯 字 符 串 中 的 任意 一 种 : r'he said "hi"\.' 


Tel 中 的 字符 串 


Tel 与 其 他 语言 都 不 一 样 ， 因 为 它 没有 真正 的 字符 申 变 量 。 相 反 ， 命 令 行 被 分 解 成 “单词 ”， 
Tel 的 命令 把 这 些 单词 作为 字符 串 、 变 量 名 和 正则 表达 式 ， 或 者 其 他 适合 的 类 型 。 因 为 命令 
行 被 分 解 成 单词 ， 常 见 的 反 斜 线 序列 ， 例 如 \n， 能 够 识别 和 转换 ， 而 无 法 识别 的 反 斜 线 序 
列 则 被 忽略 。 如 果 愿 意 ， 你 可 以 在 单词 两 端 添 加 双 引 号 ， 不 过 这 并 不 是 必须 的 ， 除 非 中 间 
存在 空格 。 


Tel 同样 也 有 和 类 似 Python 的 纯 字 符 捉 类 似 的 原 字 符 申 类 型 ， 不 过 Tol 使 用 花 括 号 {…}, 而 
不 是 r'…' ,在 花 括号 之 间 , 除 \n 之 外 的 所 有 内 容 都 会 原封 不 动 地 保存 下 来 , 所 以 {\t\x2A} 
表示 \t\x2AJ。 


在 花 括 号 之 内 ， 你 可 以 按 自己 的 意愿 添加 多 组 括号 。 非 嵌 套 的 括号 必须 用 反 斜 线 转 义 ， 不 
过 反 斜 线 会 保留 在 字符 串 之 中 。 


Iil 
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Perl 的 正则 表达 式 文字 


至 今 为 止 ， 我 们 曾 看 到 过 的 Perl 的 例子 中 ， 正 则 表达 式 都 是 以 文字 方式 提供 的 (“正则 表达 
式 文字 (regular expression literals) ") 。 不 过 ， 我 们 也 可 以 用 字符 串 变量 提交 正则 表达 式 ， 例 
如 : 


$str =~ m/(\w+)/; 
也 可 以 这 样 ; 

Sregex = '(\w+)'; 

$str =~ S$regex; 
或 者 是 这 样 

Sregex = "({\\w+)"; 

$str =~ regex; 


(不 过 ， 使 用 字符 串 可 能 会 大 大 降低 效率 ， 字 242，348) 。 
对 于 以 文字 方式 提交 的 正则 表达 式 ，Perl 会 提供 一 些 额外 的 特性 ， 包 括 ; 
° ”变量 插值 (把 变量 的 值 写 入 正则 表达 式 )。 


。 通过"\Q-…\E, (7113) 支持 文字 文本 。 
* EM (optional) 支持 \N{name} 结 构 ， 这 样 就 能 通过 正式 的 Unicode 名 来 指定 字符 。 例 


如 ， "\N{INVERTED EXCLAMATION MARK}Hola!, 能 够 匹配 ‘iHola! '。 


在 Perl 中 ， 正 则 表达 式 文字 会 作为 特殊 的 字符 串 进行 解析 。 实 际 上 ， 这 些 特性 在 Perl 双 引 
号 字符 种 中 也 有 提供 。 必 须 说 明 的 一 点 是 ， 这 些 特 性 不 是 由 正则 引擎 提供 的 。 因 为 Perl 中 
使 用 的 绝 大 多 数 正则 表达 式 都 是 作为 正则 表达 式 文本 的 ， 许 多 人 认为 0…\E 属 于 Perl 的 
正则 表达 式 语 言 ， 不 过 如 果 你 用 正则 表达 式 从 一 个 配置 文件 (或 者 命令 行 ) 读 入 数据 ， 知 
道 哪些 特性 是 由 语言 的 哪些 部 分 提供 的 就 很 重要 了 。 


更 多 细节 ， 请 参考 第 7 MH 288 页 。 


字符 编码 


Character-Encoding Issues 


字符 编码 是 一 种 写 明 的 共识 ， 它 规定 不 同 数值 的 字 节 应 该 如 何 解释 。 在 ASCII 编码 中 , 值 
为 十 进 制 110 的 字 节 代表 字符 “n ， 不 过 在 EBCDIC 编码 中 代表 “> '" 。 为 什么 会 这 样 ? 
为 这 是 由 不 同 的 人 规定 的 ， 没 有 明确 的 标准 判断 各 种 编码 的 优 劣 。 字 节 的 值 是 一 样 的 ， 不 
一 样 的 是 解释 。 
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ASCI 只 定义 了 单个 字 节 能 够 代表 的 所 有 数值 的 一 半 ，ISO-8859-1 编码 (通常 称 为 “Latin-l 
编码 ) 填补 了 下 面 的 空间 ， 其 中 增加 了 读音 字符 (accented character) 和 特殊 符号 ， 因 而 
能 够 被 更 多 的 语言 所 使 用 。 对 这 种 编码 来 说 ， 值 为 十 进 制 数 234 的 字 节 被 解释 为 s， 而 在 
ASCI 中 没有 定义 。 


对 我 们 来 说 ， 重 要 的 问题 在 于 : 如 果 我 们 期 望 使 用 某 种 特定 编码 的 数据 ， 程 序 是 否 会 这 样 
做 ? 例如， 如果 我 们 使 用 Latin-1 编码 中 值 分 别 为 234、116、101 和 115 的 4 个 字 节 (表示 
法 语 单词 “etes")， 我 们 期 望 使 用 正则 表达 式 “\w+S$ 或 者 “\bi 来 匹配 。 如 果 程 序 中 的 \w 
或 者 \b 能 够 支持 Latin-1 字符 ， 就 可 以 正常 工作 ， 否 则 不 行 。 


编码 的 支持 程度 


编码 有 许多 种 ， 当 你 需要 关注 一 种 具体 的 编码 时 ， 你 需要 考虑 的 重要 问题 包括 : 
” ”程序 能 够 识别 这 种 编码 吗 ? 

© ”程序 如 何 决 定 采 用 哪 种 编码 来 处 理 这 些 数据 ? 

"正则 表达 式 对 这 种 编码 的 支持 程度 如 何 ? 

编码 的 支持 程度 包括 若干 重要 的 问题 : 


” ”是否 能 够 支持 多 字 节 字符 ?点 号 和 [^x] 之 类 的 表达 式 是 匹配 单个 字符 ， 还 是 单个 字 
节 ? 


*  \w、\d、\s、\b 之 类 的 元 字符 ， 是 否 能 识别 编码 中 的 所 有 字符 ? 例如， 虽然 6 也 是 一 
个 字符 ，\w 和 \b 能 处 理 吗 ? 


° ”程序 是 否 会 扩展 对 字符 组 的 解释 ? [a-z] 能 否 匹 配 e? 
。 ”不 区 分 大 小 写 的 匹配 是 否 能 对 所 有 字符 有 效 ? 例如 ，e 和 上 人 是 否 一 样 ? 


有 时 候 事情 不 像 看 起 来 那么 简单 。 例 如 ，java.util.regex 包 的 \b 能 够 正确 识别 Unicode 
中 所 有 与 单词 相关 的 字符 ， \w 则 不 能 ( 它 只 能 匹配 ASCI 中 的 字符 )。 我 们 会 在 本 章 的 其 
他 部 分 看 到 更 多 的 例子 。 


Unicode: 
Unicode 


Unicode 究竟 是 什么 ， 似 乎 存在 许多 误解 。 从 最 基本 的 意义 上 说 ，Unicode 是 一 组 字符 设 定 ， 
或 者 是 从 数字 和 字符 之 间 的 逻辑 映射 的 概念 编码 。 例 如 ， 韩 语 字 符 针 对 应 数字 49,333, ik 
个 数值 ， 称 为 一 个 “代码 点 (code point)”, 通常 用 十 六 进 制 来 表示 , 以“U+” 开 头 。49,333 
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换算 成 十 六 进 制 是 c0B5， 所 以 针 的 代码 就 是 U+c0B5。 针 对 许多 字符 ，Unicode 还 定义 了 一 
组 属性 ， 例 如 3 是 一 个 数字 ， 而 记 是 与 6 对 应 的 大 写字 母 。 


目前 ， 我们 还 没有 谈 到 这 些 数值 在 计算 机 上 是 如 何 编 码 为 数据 的 。 这 样 的 编码 方式 有 许多 ， 
包括 UCS-2 编码 (所 有 的 字符 都 占用 两 个 字 节 )，UCS-4 编码 (所 有 字符 占用 4 个 字 节 )， 
UTF-16 (大 部 分 字符 都 占用 两 个 字 节 ， 有 一 些 字符 占用 4 个 字 节 )， 以 及 UTF-8 编码 (用 1 
到 6 个 字 节 来 编码 字符 )。 具 体 的 程序 内 部 到 底 使 用 哪 种 编码 通常 不 需要 用 户 来 关心 。 用 户 
只 需要 关心 如 何 将 外 部 数据 (例如 从 文件 读 入 的 数据 ) 从 已 知 的 编码 (ASCII, Latin-1、 UTF-8 
等 ) 转换 给 具体 的 程序 。 支 持 Unicode 的 程序 通常 提供 了 多 种 编码 和 解码 程序 来 进行 这 些 转 
换 。 


支持 Unicode 的 程序 中 的 正则 表达 式 通 常 支持 \unum 元 序列 , 用 来 匹配 一 个 具体 的 Unicode 
字符 (=117)。 这 个 数值 通常 是 一 个 4 位 的 十 六 进 制 数 ， 所 以 \uc0B5 ARA. EER 
楚 的 是 ，\ucoB5 的 意思 是 “匹配 编号 为 U+C0B5 的 Unicode 字符 ”， 而 没有 说 具体 需要 比较 
哪些 字 节 , 因为 具体 的 字 节 是 由 代表 这 个 Unicode 代码 点 的 编码 方式 在 内 部 决定 的 。 如 果 程 
序 内 部 使 用 的 是 UTF-8 编码 ， 这 个 字符 就 用 3 个 字 节 表示 。 不 过 使 用 支持 Unicode 程序 的 
用 户 , 并 不 需要 关心 这 个 (也 有 时 候 需要 ,例如 使 用 PHP 的 preg 套件 和 模式 修饰 符 u 7447). 


还 有 一 些 你 或 许 需 要 知道 的 相关 知识 …… 


字符 ， 还 是 组 合 字符 序列 


一 般 人 眼 里 的 “字符 ”(character) 并 不 都 会 被 Unicode 或 者 支持 Unicode 的 程序 (RAE 
则 引擎 ) 看 作 一 个 字符 。 例 如 ， 有 人 或 许 认 为 à 是 一 个 字符 ， 但 是 在 Unicode 中 ， 它 可 能 
由 两 个 代码 点 构成 ，U+0061 (a) 和 钝 重音 (grave accent) U+0300 (')。Unicode 提供 了 许多 
组 合 字符 (combining character) ， 用 来 修饰 (结合 ) 一 个 基本 字符 。 这 会 给 正则 引擎 带 来 些 
麻烦 ， 例 如 ， 点 号 是 应 该 匹配 单个 代码 点 呢 ， 还 是 整个 Ut+0061 和 U+0300? 
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在 实践 中 ， 许 多 程序 似乎 把 “字符 ”和 “代码 点 ” 视 为 等 价 ， 也 就 是 说 ， 点 号 可 以 匹配 单 
个 的 代码 点 , 无 论 是 基本 字符 还 是 组 合 字符 。 所 以 , à (U+0061 加 上 0+0300) REH ^.. S 
匹配 ， 而 不 是 .$j。 


Perl 和 PCRE (以 及 PHP 的 preg 套件 ) 支持 \X 元 序列 ， 这 样 点 号 (“匹配 单个 字符 ”) 就 能 
够 匹配 一 个 结合 了 组 合 字符 的 基本 字符 。 详 见 第 120 页 。 


在 支持 Unicode 的 编辑 器 中 输入 正则 表达 式 时 , 一 定 要 记 住 组 合 字符 的 概念 。 如果 一 个 带 音 
调 的 字符 ， 例 如 A， 被 正则 表达 式 当 作 “Aa” 和 ““， 很 可 能 无 法 匹配 字符 串 中 单个 代码 点 
表示 的 A (下 一 节 讨 论 单 代 码 点 的 情况 )。 同 样 ， 对 正则 引擎 来 说 它 是 两 个 不 同 的 字符 ， 所 
以 [… 大 在 字符 组 中 添加 了 两 个 字符 ， 等 于 Cea eed. 


同样 ,如果 两 个 代码 点 的 字符 一 一 例如 A 一 一 后 面 跟 有 一 个 量词 , 量词 作用 的 其 实 是 第 二 个 
代码 点 ， 也 就 是 ‘a’ to 


用 多 个 代码 点 表示 同一 个 字符 


从 理论 上 说 ，Unicode 应 该 是 代码 点 和 字符 之 间 的 一 一 映射 (译注 4) ， 不 过 在 许多 情况 下 ， 
一 个 字符 可 能 有 多 种 表现 方式 。 前 一 节 中 我 们 看 到 a 可 以 表示 为 0+0061 加 上 U+0300。 不 
过 , 它 也 可 以 用 单个 代码 点 U+00E0, 为 什么 会 出 现 这 种 情况 ? 是 为 了 保证 Unicode 和 Latin-1 
之 间 转 换 的 简易 性 ,如 果 我 们 有 和 需要 转换 为 Unicode 的 Latin-] 文本 ,a 可 能 被 转换 为 U+00E0。 
不 过 , 也 可 以 转换 为 U0+0061 和 u+0300 MAA. 通常 ,这 种 转换 是 自动 的 ， 用 户 无 法 干预 ， 
不 过 Sun 的 java.util.regex 包 提 供 了 一 种 特殊 的 匹配 符 , CANON_EQ, 保证 能 够 匹配 “在 
规则 中 等 价 (canonically equivalent)” 的 字符 ， 无 论 它们 在 Unicode 中 使 用 什么 存储 方式 
(7368), 


与 此 相关 的 问题 是 ， 不 同 的 字符 可 能 无 法 从 外 观 上 区 分 ， 如 果 需 要 检查 生成 的 文本 ， 这 会 
带 来 混乱 。 例 如 ， 罗 马 字母 1 (0+0049) 可 能 与 1， 也 就 是 希腊 字母 Iota (U+0399) RM. 
这 个 字符 添加 希腊 语 置 号 之 后 得 到 i 或 者 i, 编码 也 增加 到 4 种 (U+00CF; U+03AA; U+0049 
U+0308; U+0399U+0308)。 也 就 是 说 ， 如 果 需 要 匹配 1， 你 可 能 需要 手动 指定 这 4 种 可 能 。 
类 似 的 例子 还 有 许多 。 


译注 4: 即 离 散 数学 中 的 “ 双 射 ”。 
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还 有 许多 单个 字符 看 起 来 不 只 一 个 字符 。 例 如 Unicode 定义 了 一 个 叫做 “souaRE Hz” 
(U+3390) 的 字符 。 这 很 像 两 个 普通 字符 Hz 的 组 合 (U0048 U+007A)。 


尽管 Hz 之 类 的 特殊 字符 的 用 途 在 目前 非常 有 限 ， 但 在 将 来 ， 它们 的 应 用 肯定 会 增加 文本 处 
理 程序 的 复杂 性 , 所 以 在 处 理 Unicode 时 不 应 忘记 这 些 问题 。 用 户 可 能 会 期 望 ,处 理 这 样 的 
数据 时 ， 必 须 能 够 处 理 正常 空格 (U+0020) 和 非 换行 空格 (no-break spaces) (v+00A0), 或 
许 还 需要 包括 Unicode 中 其 他 的 成 打 的 空白 字符 之 中 的 任意 一 个 。 


Unicode 3.1+ 和 U+FFFF 之 后 的 代码 点 


Unicode Version 3.1 诞生 于 2001 年 中 期 ， 增加 了 U+FFFF 之 后 的 代码 点 (之 前 版 本 的 Unicode 
也 支持 这 些 代码 点 ， 但 是 在 Version 3.1 以 前 ， 它 们 都 是 没有 定义 的 ) lán, 代表 音乐 谱 号 
C (Clef) 的 字符 对 应 代码 点 U+1D121。 之 前 那些 仅 支 持 低 于 U+FFFF 字符 的 程序 无 法 处 理 
这 种 情况 。 大 多 数 程序 的 \unum 只 能 支持 最 多 4 位 十 六 进 制 数值 。 


能 够 处 理 这 类 新 字符 的 程序 通常 提供 了 \x (mum) 序列 ,num 可 以 为 任意 多 位 数字 (这 是 为 了 
增强 只 支持 4 位 数字 的 \unum 表示 法 )。 你 可 以 使 用 \x{1D121) 来 匹配 这 类 “ 谱 号 C” 之 类 
的 字符 。 


Unicode 中 的 行 终止 符 


Unicode 定义 了 多 个 用 于 表示 行 终止 符 的 字符 (以 及 一 个 双 字 符 序列 ) ， 详 见 表 3-5, 
表 3-5; Unicode 行 终止 符 













RM E EO EA 
LF U+000A ASCII 换行 符 

vr ASCI SEMRA 

FF wooo ason ana 

CR ASCII m$ 

CRLF ASCI WERA 

NEL Unicode 换行 

LS Unicode FEAA 

Ps [0 O | Unicode a 
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如 果 行 终止 符 获得 了 完全 的 支持 ， 它 会 影响 文本 行 从 文件 (在 脚本 语言 中 ， 还 包括 程序 读 
取 的 文件 ) 读 入 的 方式 。 在 使 用 正则 表达 式 时 ， 它 们 影响 点 号 (7111), R's, SANZ 
的 匹配 (7112), 


正则 模式 和 匹配 模式 


Regex Modes and Match Modes 


许多 正则 引擎 都 支持 多 种 不 同 的 模式 ， 它 们 规定 了 正则 表达 式 应 该 如 何 解释 和 应 用 。 我 们 
已 经 看 过 Perl 的 /x 修饰 符 (容许 自由 空格 和 注释 的 正则 模式 了 72) 和 /i 修饰 符 (进行 不 区 
分 大 小 写 匹 配 的 模式 了 47)。 


在 许多 流派 中 ， 模 式 可 以 完全 作用 于 整个 表达 式 ， 也 可 以 单独 应 用 于 某 个 子 表达 式 。 整 体 
应 用 是 通过 修饰 符 或 者 选项 (options) 来 决定 的 ， 例 如 Perl 的 /i ，PHP 的 模式 修饰 符 i 
(7446), Ñl java.util.regex fy Pattern.CASE_INSENSITIVE 标志 (了 99)。 如 果 支 持 ， 
应 用 到 目标 字符 牛 中 部 分 文本 的 模式 是 通过 一 个 正则 结构 来 实现 的 ， 例 如 用 '(?i) ,来 开启 
不 区 分 大 小 写 的 匹配 ,'(?-i), 来 停 用 该 匹配 。 有 的 流派 也 支持 '(?i:…), 和 '(?-i:…) ,来 启 
用 或 者 停 用 对 括号 内 的 子 表达 式 进 行 不 区 分 大 小 写 匹 配 的 功能 。 


本 章 后 面部 分 会 介绍 (7135) 如 何在 正则 表达 式 中 设置 这 些 模式 。 在 本 节 ， 我 们 只 看 看 大 
多 数 系统 提供 的 常见 模式 。 


不 区 分 大 小 写 的 匹配 模式 


此 模式 很 常见 ， 它 在 匹配 过 程 中 会 忽略 字母 的 大 小 写 ， 所 以 pb 可 以 匹配 “b” A ‘e. ie 
功能 也 必须 依赖 于 正确 的 字符 编码 支持 ， 所 以 之 前 我 们 提 到 的 注意 事项 对 它 都 适用 。 


在 历史 上 ， 不 区 分 大 小 写 的 匹配 支持 一 直 不 太 令 人 满意 ， 被 bug 困扰 ， 好 在 如 今 大 部 分 已 
经 修正 了 。 不 过 ，Ruby 不 区 分 大 小 写 的 匹配 仍然 不 能 处 理 八进制 和 十 六 进 制 的 转 义 字符 。 


不 区 分 大 小 写 的 匹配 存在 特殊 的 与 Unicode 相关 的 问题 (在 Unicode 中 称 为 “粗略 匹配 (loose 
matching)”)。 简 单 地 说 ,就 是 并 非 所 有 的 ASCI 字母 和 数字 字符 都 存在 大 小 写 形式 ， 而 某 
些 字符 在 作为 单词 首 字母 时 会 有 单独 的 标题 格式 (title case)。 有 时候 在 大 写 和 小 写 之 间 并 
没有 明显 的 一 对 一 上 映射。 常见 的 例子 是 希腊 字母 西 格 马 ， 它 有 两 个 小 写 形式 5 和 o，, 在 
不 区 分 大 小 写 的 模式 中 ， 这 三 者 应 该 是 等 价 的。 根据 我 的 测试 ， 只 有 Perl 和 Java 的 java. 
util. regex 能 够 正确 处 理 它们 。 


i 
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另 一 个 问题 是 ， 有 时 候 单个 字符 会 对 应 到 一 组 字符 。 常 见 的 例子 是 大 写 的 8 是 两 个 字符 的 
组 合 “ss”"。 这 种 情况 只 有 Perl 能 够 正确 处 理 。 


Unicode 还 带 来 了 一 些 问 题 。 例 如 单字 符 了 (U+01F0) 没有 对 应 的 大 写 形式 的 单字 符 。 相 反 ， 
了 需要 使 用 组 合 字 符 〈( 字 107)，U+004A 和 U+030C。 而 MI 应 该 在 不 区 分 大 小 写 的 模式 中 
是 等 价 和 的 。 类 似 的 还 有 一 对 三 的 例子 。 幸 好 ， 这 些 都 不 是 常用 字符 。 


宽松 排列 和 注释 模式 


此 模式 会 忽略 字符 组 外 部 的 所 有 空白 字符 。 字 符 组 内 部 的 空白 字符 仍然 有 效 (java.util. 
regex 是 例外 ) ,# 符 号 和 换行 符 之 间 的 内 容 视 为 注释 。 我 们 已 经 见 过 Perl (772), Java (798) 
Al VB.NET (7°99) 中 相应 的 例子 。 


不 过 , 在 java.util.regex 中 ， 字 符 组 之 外 的 所 有 空白 字符 并 非 都 会 被 忽略 ， 而 是 作为 一 
个 “无 意义 元 字符 (do-noting metacharacter)”。 在 理解 123, 时 ， 这 种 区 分 很 重要 ， 因 为 
ERR 3, 接 在 仆 12, 之 后 ， 而 不 是 有 些 人 以 为 的 八 123，。 


当然 ,“ 空 白字 符 ” 的 定义 取决 于 所 采用 的 字符 编码 的 定义 ， 以 及 此 编码 对 空白 字符 的 支持 
程度 。 大 多 数 程序 只 能 识别 ASCII 的 空白 字符 。 


点 号 通 配 模式 (dot-match-all match mode， 也 叫 “ 单 行 模式 "”) 


通常 ， 点 号 是 不 能 匹配 换行 符 的 。 最 初 的 Unix 正则 表达 式 工 具 是 逐 行 处 理 的 ， 直 到 sed 和 
lex 出 现 之 后 ， 才 提出 匹配 换行 符 的 要 求 。 那 时 候 ， 人 们 常用 '.* 来 匹配 “本 行 中 的 其 他 内 
容 (the rest of the line)”, 为 了 保证 一 致 ， 新 的 语法 不 能 修改 '.*, 的 定义 ( 注 9)。 所 以 , 能 
够 处 理 多 行文 本 的 工具 (例如 文本 编辑 器 ) 通常 不 容许 点 号 匹配 换行 符 。 


对 现代 编程 语言 来 说 ， 点 号 能 够 匹配 换行 符 的 模式 和 不 能 匹配 的 模式 同样 有 用 。 这 两 种 模 
式 哪个 更 方便 ， 取 决 于 具体 的 情况 。 许 多 程序 提供 了 两 种 方法 供 正则 表达 式 选择 。 


这 种 常规 标准 也 有 少数 例外 的 情况 。 支 持 Unicode 的 系统 ， 例 如 在 Sun 的 正则 表达 式 包 ， 
点 号 能 够 匹配 未 使 用 此 模式 时 点 号 不 能 匹配 的 所 有 单字 符 Unicode FTA ik FF (7109), 在 


注 9: Ken Thompson (ed 的 作者 ) 向 我 解释 说 ， 这 样 '.*) 变 得 “非常 古怪 ”。 
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Tel 的 普通 模式 中 , 点 号 能 够 匹配 任何 字符 , 但 是 在 其 特殊 的 “区 分 换行 (newline-sensitive)” 
和 “部 分 区 分 换行 (partial newline-sensitive)” 的 匹配 模式 下 ， 点 号 和 排除 型 字符 组 都 不 能 
匹配 换行 符 。 


不 幸 的 命名 


/s 修饰 符 对 应 的 匹配 模式 第 一 次 出 现在 Perl 时 , 被 称 为 “单行 文本 模式 (single-line mode)”, 
这 个 不 幸 的 命名 一 直 是 混乱 的 起 源 , 因为 与 下 一 节 讨 论 的 “多 行文 本 模式 (multiline mode)” 
比较 起 来 ， 它 似乎 与 和 '$ 没有 关系 。 其 实 “ 单 行文 本 模式 ” 指 的 是 ,点 号 不 受 限制 ,可 
以 匹配 任何 字符 。 


增强 的 行 锚 点 模式 (Enhanced line-anchor match mode， 也 叫 “ 多 行文 本 模式 ”) 


增强 的 行销 点 模式 会 影响 到 行 锁 点 A's 的 匹配 。 通 常情 况 下 ， 锚 点 ”不 能 匹配 字符 串 
内 部 的 换行 符 ， 而 只 能 匹配 目标 字符 串 的 起 始 位 置 。 但 是 在 此 增强 模式 下 ， 它 能 够 匹配 字 
符 串 中 内 菊 的 文本 行 的 开头 位 置 。 前 一 章 出 现 了 这 样 的 例子 (69)， 当 时 我 们 用 Perl 开发 
把 文本 内 容 转换 为 超 文本 内 容 程 序 。 其 中 ， 所 有 的 文本 保存 在 一 个 字符 串 中 ， 所 以 我 们 可 
以 通过 查找 -替换 功能 用 s/^$/<p>/mg 来 把 “…tags. A) Mits” A “tags. 
<p>Btrs…”。 该 替换 把 空 “ 行 ”替换 为 段落 tag. 


$1 也 是 这 样 , 尽管 '$, 在 正常 情况 下 的 匹配 的 基本 规则 比较 难 理解 (7129), 不 过 , 就 本 节 
来 说 ， 我 们 只 需要 记 住 , '$, 可 以 匹配 字符 串 内 部 的 换行 符 ， 就 足够 了 。 


支持 此 模式 的 程序 通常 还 提供 了 Va A \ zu, 它们 的 作用 与 普通 的 "~, 和"S$ 一样, 只 是 在 此 
模式 下 它们 的 意义 不 会 发 生变 化 。 也 就 是 说 “ai A \ 2) 永远 不 会 匹配 字符 串 内 部 的 换行 符 。 
有 些 实现 方式 中 ，$ 和 仆 2 能 够 匹配 字符 串 内 部 的 换行 符 , 不 过 它们 通常 会 提供 \z,, 唯一 
匹配 整个 字符 串 的 结尾 位 置 。 详 见 129 页 。 


对 点 号 来 说 ， 常 用 标准 有 一 些 例外 。 在 GNU Emacs 之 类 的 文本 编辑 器 中 ， 行 锚 点 通常 能 够 
匹配 字符 串 中 的 换行 符 , 因为 在 编辑 器 中 这 样 非常 有 意义 。 另 一 方面 , lex H's, 只 能 匹配 换 
行 符 之 前 的 位 置 (其 中 “的 意义 与 常见 的 一 样 )。 


此 模式 下 , 在 Sun 的 java.util.regex 之 类 支持 Unicode MAGE, FAKED IC ACE ay 
— FATAL (7109), Ruby 的 行销 点 在 正常 情况 下 能 够 匹配 字符 串 中 的 换行 符 ，Python 
的 2 类 似 八 z， 而 不 是 普通 的 "Si。 
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长 期 以 来 ， 这 种 模式 被 称 为 “多 行 模式 (multiline mode)”"。 尽 管 它 与 “单行 模式 ”没有 什 
么 关系 , 但 看 名 字 总 容易 觉得 二 者 有 关联 。 后 者 修改 的 是 点 号 的 匹配 规则 , 前 者 修改 的 是 “， 
和 5S 的 匹配 规则 。 另 一 方面 ， 它 们 从 不 同 的 思路 处 理 换行 符 。 第 一 个 修改 了 点 号 处 理 换行 
符 的 方式 ， 从 “需要 特殊 处 理 ” 变 为 “不 需要 特殊 处 理 ”， 第 二 个 的 做 法 则 相反 ,改变 了 ^ 
和 Si 匹配 换 行 符 的 方式 ， 从 “不 需要 特殊 处 理 ” 变 为 “需要 特殊 处 理 ”( 注 10)。 


文字 文本 模式 


“文字 文本 (literal text) ”模式 几乎 不 能 识别 任何 正则 表达 式 元 字符 。 例 如 ， 文 字 文 本 模式 
下 fa-z] 刀 1 匹配 字符 串 “[a-z]j*"。 完 整 的 文字 搜索 (literal search) 等 于 简单 的 字符 串 搜 
索 ( ”搜索 这 个 字符 串 "， 而 不 是 “搜索 这 个 正则 表达 式 ")， 支 持 正则 表达 式 的 程序 通常 也 
提供 了 普通 的 字符 串 搜索 功能 。 正 则 表达 式 的 文字 文本 模式 之 所 以 更 有 趣 ， 是 因为 它 可 以 
只 作用 于 正则 表达 式 的 一 部 分 ， 举 例 来 说 ，PCRE (因此 也 包括 PHP) 的 正则 表达 式 和 Perl 
的 正则 表达 式 文本 提供 了 特殊 的 序列 \Q…\E， 其 中 内 容 的 元 字符 全 部 被 忽略 (当然 ， 不 包 
括 \E)。 


常用 的 元 字符 和 特性 


Common Metacharacters and Features 


本 章 的 其 他 部 分 一 一 剩 下 大 约 30 页 的 内 容 简 要 介绍 下 一 页 列 出 的 常见 正则 表达 式 元 字符 和 
概念 。 这 里 的 介绍 并 不 是 全 面 彻底 的 ， 不 过 也 没有 任何 一 种 正则 工具 涉及 其 中 的 所 有 内 容 。 


从 某 种 意义 上 说 ， 这 一 节 只 是 前 两 章 内 容 的 总 结 ， 但 同时 也 是 为 本 章 介绍 更 全 面 更 深刻 的 
知识 做 准备 。 读 者 第 一 次 接触 时 ， 只 需 赂 读本 章 就 可 以 继续 阅读 下 面 各 章 ， 以 后 在 需要 的 
时 候 可 以 随时 回 过 头 来 查阅 细节 。 


有 的 工具 添加 了 大 量 的 新 功能 ， 也 可 能 毫 无 根据 地 改变 某 些 通用 表示 法 ， 以 满足 它们 的 特 
殊 要 求 。 尽 管 我 有 时 会 提 到 这 些 特殊 的 工具 ， 但 不 会 花 太 多 的 笔 黑 在 工具 的 细节 问题 上 。 
相反 ， 在 这 一 节 我 只 希望 介绍 常见 的 元 字符 及 其 作用 ， 以 及 与 此 相关 的 一 些 问题 。 我 希望 
读者 能 够 参考 自己 擅长 的 工具 提供 的 使 用 手册 。 


注 10: 正常 情况 下 ，Tcl 的 点 号 能 够 匹配 所 有 字符 ， 所 以 从 这 个 意义 上 说 它 比 其 他 任何 语言 部 要 
直接 易 懂 。 在 Tcl 的 正则 表达 式 中 ,换行 桂 并 不 需要 特殊 处 理 (对 点 号 和 行 锚 点 来 说 都 是 
如 此 )， 但 是 如 果 明 确 指 定 了 匹配 模式 ， 情 况 就 不 一 样 了 。 不 过 ， 因 为 其 他 系统 通常 以 其 
他 方式 来 做 到 这 一 点 ， 那 些 习 怪 其 他 方式 的 用 户 可 能 会 感到 速 惑 。 
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本 节 介 绍 的 结构 


字符 表示 法 

了 115 字符 缩 略 表示 法 : \na、\t、\a、\b、\e、\E、\F、\v、… 
F116 八进制 转 义 : \num 

F117 十 六 进 制 /Unicode $X: \xnum, \x{num}, \unum, \Unum, ~ 
W117 控制 字符 : \cchar 


字符 组 及 相关 结构 

7118 普通 字符 组 : [a-z] 和 [^a-z] 

T119 几乎 能 匹配 任何 字符 的 元 字符 : 点 号 

7120 BFA: \c 

#120 Unicode 组 合 字符 序列 ，\x 

7120 ”字符 组 缩 略 表示 法 : \w、\da、\e、\W、\D、\S 
7121 Unicode 属性 、 区 块 和 分 类 : \ptProp}、\P{Prop} 
r125 FRAZA: [[a-z]j&&[^aeiou]] 

7127 POSIX“ 字 符 组 ” 方 括 号 表示 法 : [[:alpha:]] 
7128 POSIX “collating 序列 ” 方 括 号 表示 法 : [[.span-11.]] 
7128 ”POSIX“ 字 符 等 价 类 ” 方 括号 表示 法 : [ [=n=] ] 
#128 Emacs 语法 类 


HARRE “PEKERE” 

T129 行 /字符 串 起 点 :“、\A 

129 行 /字符 串 终 点 : $、\Z2、\z 

T130 本 次 匹配 的 开始 位 置 (或 者 上 次 匹配 的 结束 位 置 ): \G 
7133 RQR: \b、\B、\<、\>,…. 

7133 ”顺序 环视 (?=…)、(?1…)， 逆序 环视 (?<=…)、(?<1…) 


注释 和 模式 修饰 词 

=135 ”模式 修饰 词 ，(?modifier) ， 例 如 (?1) 或 (?-1) 
T135 ”模式 作用 范围 ，(?modifier:…) ,例如 (?1:…) 
r136 ”注释 (?#:…) 和 Be 

136 ”文字 文本 范围 ，\Q…\ 


分 组 、 捕 获 、 条 件 判 断 和 控制 

7137) ”捕获 /分 组 括号 : (…)、\LE、\2，… 

r137 RAFTAAR: (?:…) 

7138 命名 捕获 : (?<Name>…) 

r139 WERA: (?>…) 

#139 多 选 结构 : | oso | oe 

F140 RFH: (?if then|else) 

F141 ”匹配 优先 量词 : *, +, 2, {num,num} 
F141 ”忽略 优先 量词 : *?、+?、??、{num,num}? 
7142 占有 优先 量词 : *+、++、?+、{num,num}+ 
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字符 表示 法 


Character Representations 
这 一 组 元 字符 能 够 以 清晰 美观 的 方式 匹配 其 他 方式 中 很 难 描述 的 某 些 字符 。 


字符 缩 略 表示 法 


许多 工具 软件 提供 了 表示 某 些 控制 字符 的 元 字符 ， 其 中 有 一 些 在 所 有 机 器 上 都 是 不 变 的 ， 
但 也 有 些 是 很 难 输入 或 观察 的 : 


\a 警报 (例如 ， 在 “打印 ”时 扬声器 发 声 )。 通 常 对 应 ASCH 中 的 <BEL> 字 符 ， 八 进 
制 编码 007。 


\b 退 格 通常 对 应 ASCI 中 的 <Bs> 字 符 , 八进制 编码 010。( 在 许多 流派 中 , b 只 有 
在 字符 组 内 部 才 表 示 这 样 的 意义 ， 否 则 代表 单词 分 界 符 了 了 133)。 


\e Escape 字符 通常 对 应 ASCII 中 的 <Esc> 字 符 ， 八 进 制 编码 033。 
\£f HRR 通常 对 应 ASCII 中 的 <FF> 字 符 ， 八 进 制 编码 014。 


\n 换行 符 出 现在 几乎 所 有 平台 (包括 Unix 和 DOS/Windows) 上 ， 通 常 对 应 ASCII 
的 <LF> 字 符 ， 八 进 制 编码 012。 在 MacOS 中 通常 对 应 ASCII 的 <cR> 字 符 ， 十 进 
制 编 码 015。 在 Java 或 任意 一 种 .NET 语言 中 ， 不 论 采 用 什么 平台 ， 都 对 应 
ASCII<LF> 字 符 。 

\r AF 通常 对 应 ASCII 的 <cR> 字 符 。 在 MacOS 中 ， 对 应 到 ASCI 的 <LF> 字 符 。 在 
Java 或 任意 一 种 .NET 语言 中 ， 不 论 采 用 什么 平台 ， 都 对 应 到 ASCII 的 <cR> 字 符 。 


\t KEHEE 对 应 ASCII 的 <HT> 字 符 ， 八 进 制 编码 011。 
\v SERRA 对 应 ASCI 的 <vT> 字 符 ， 八 进 制 编码 013, 


R 3-6 列 出 了 几 种 常用 的 工具 及 它们 提供 的 某 些 字符 缩 略 表示 法 。 之 前 已 经 说 过 , 某 些 语言 
在 支持 字符 串 文 字 时 已 经 提供 了 同样 的 字符 缩 略 表示 法 。 请 不 要 忘记 那 一 节 (一 101)， 
为 它 涉及 某 些 相关 的 陷阱 。 


会 根据 机 器 变化 的 字符 ? 


从 该 表 可 以 看 出 ， 在 许多 工具 中 ，\n 和 \r 的 意义 是 随 操作 系统 的 变化 而 变化 的 ( 注 11)， 
所 以 在 使 用 时 应 格外 小 心 。 如果 你 需要 在 程序 可 能 运行 的 所 有 平台 上 都 能 通用 的 “换行 符 ”， 
请 使 用 \n。 如 果 需 要 一 个 对 应 特殊 值 的 字符 ， 例 如 HTTP 协议 定义 的 分 隔 符 ， 请 使 用 \012 


注 11: 如 果 工 具 软 件 本 身 是 用 C 或 者 C++ 写 的 ， 将 其 中 的 正则 表达 式 反 针线 转 义 转换 为 C 的 反 
针线 转 义 ， 结 果 取 决 于 编译 器 。 在 现实 中 ， 在 特定 平台 的 各 种 编译 器 对 换行 竺 的 支持 是 
有 统一 标准 的 ， 所 以 我 们 可 以 认为 这 个 问题 只 与 操作 系统 相关 。 不 过 ， 因 为 只 有 \r 和 \n 
的 意义 会 根据 操作 系统 的 变化 〈 在 一 定 程度 上 ， 也 与 时 间 有 关 ) ， 可 以 认为 其 他 的 字 侍 在 
所 有 系统 上 都 是 统一 的 。 


ili 
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表 3-6: 几 款 工具 软件 及 它们 提供 的 元 字符 简写 法 





程序 字符 简写 

Python A lv g 4 /vv ¢ /v/v v 
Tel Iy vv ov £ Sf ~f x 
Perl A e a, 4 ev E d 

Java ds dV / Ja Va Va da AV 
GNU awk a =. ee ee Sa y g 
GNU sed / 

GNUEmacs |v If, 4 YY YY YY A ht ts 
NET Z Me tO Se See y ee: 
PHP (preg ##t)|¥ |v。 v  v 4 JA 4 
ws | 

GNU grep/egrep 

flex | I g © A a 
Ruby vo Vd EO S F F d 


VY 支持 ; Vc 只 在 字符 组 内 部 支持 

ws 支持 (字符 囊 文字 也 支持 ) 

Vx 支持 (但 在 字符 事 文字 中 ， 同 样 的 序列 有 不 同 的 意义 ) 

Vx 不 支持 (但 在 字符 事 文 字 中 ， 同 样 的 序列 有 不 同 的 意义 ) 

df, 不 支持 (但 字符 事 文 字 支 持 ) 

本 表格 假设 在 每 种 程序 中 使 用 的 都 是 最 适合 正则 表达 式 的 字符 事 类 型 
版 本 信息 请 参考 第 91 页 


之 类 标准 规定 的 字符 (\012 是 ASCII 中 的 换行 符 的 八进制 编码 )。 如 果 你 希望 匹配 DOS 中 
的 行 终结 字符 ， 请 使 用 \015\012,。 如 果 希 望 同 时 匹配 DOS 或 Unix 的 换行 字符 ， 请 使 用 
\015?\012, (它们 通常 是 匹配 行 尾 的 字符 ， 如 果 希 望 匹 配 行 的 开头 位 置 或 结尾 位 置 ， 请 使 
FAST HAT 129), 


八进制 转 义 \num 


支持 八进制 (以 8 为 基数 ) 转 义 的 实现 方式 通常 容许 以 2 到 3 位 数字 表示 该 值 所 代表 的 字 
节 或 字符 。 例 如 , \015\012 表 示 ASCII 的 CR/LF 序列 。 八 进 制 转 义 可 以 很 方便 地 在 正则 
表达 式 中 插入 平时 难以 输入 的 字符 。 例 如 ， 在 Perl 中 ， 我 们 可 以 使 用 八 e, 作为 ASCI 的 转 
义 字 符 ， 但 是 在 awk 中 不 行 。 
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因为 awk 支持 八进制 转 义 ， 我 们 可 以 直接 使 用 ASCII 代码 来 表示 escape 字符 : '\0331, 
下 一 页 的 表 3-7 列 出 了 部 分 工具 支持 的 八进制 转 义 。 


有 些 实现 方式 很 特殊 ， 在 其 中 疏 0 能够 匹配 字 节 NUL。 有 的 支持 一 位 数字 的 八进制 转 义 ， 
不 过 如 果 同 时 支持 "1 之 类 的 反 向 引用 ， 就 不 会 提供 这 种 功能 。 如 果 两 者 发 生 冲 突 ， 则 反 
向 引用 一 般 要 优先 于 八进制 转 义 。 有 的 容许 出 现 4 位 数字 的 八进制 转 义 ， 不 过 通常 会 要 求 
任何 八进制 转 义 都 必须 以 0 开头 (例如 java.util.regex), 


你 可 能 会 想 ， 如 果 遇 到 \565 之 类 超出 范围 的 转 义 数值 (8 位 的 八进制 数值 范围 从 \000 到 
\377) 会 发 生 什 么 。 大 约 一 半 的 实现 方式 将 其 视 为 多 余 一 个 字 节 的 值 (如 果 支 持 Unicode, 
则 可 能 是 Unicode 字符 )， 而 其 他 实现 方式 会 将 其 截断 为 一 个 字 节 。 一 般 来 说 ， 最 好 的 办 法 
还 是 不 要 使 用 超过 \377 的 八进制 转 义 。 


十 六 进 制 及 Unicode $X. \xnum, \x{num}, \unum, \onum 


除了 八进制 转 义 之 外 ， 许 多 工具 软件 也 支持 十 六 进 制 转 义 (以 16 为 基数 )， 以 \x、\u 或 者 
是 \U FFA, 如果 支 持 \x, 则 \x0D\x0A 匹配 CR/LF 序列 。 表 3-7 列 出 了 部 分 工具 软件 支持 
的 十 六 进 制 转 义 。 


除了 知道 采用 的 是 哪 种 转 义 之 外 ， 你 可 能 还 希望 知道 各 种 转 义 能 识别 多 少 位 的 转 义 值 ， 以 
及 是 否 能 够 (或 者 必须 ) 在 数字 两 端 使 用 花 括 号 。 对 此 ， 表 3-7 同样 作 了 说 明 。 


控制 字符 : \cchar 


许多 流派 中 可 以 用 \cchar; 来 匹配 编码 值 小 于 32 的 控制 字符 (有 些 能 支持 更 大 的 值 )。 例如 ， 
A\cH 匹 配 一 个 Control-H 字符 , 也 就 是 ASCI 中 的 退 格 符 , 而 \ co 匹配 ASCI 的 换行 符 ( 通 
常 使 用 \m， 不 过 有 时 也 使 用 \ri， 这 取决 于 具体 的 平台 一 115) 。 


支持 此 结构 的 系统 在 细节 上 有 所 不 同 。 与 这 个 例子 一 样 ， 通 常 使 用 大 写 英文 字母 是 不 会 有 
问题 的 。 在 大 多 数 实现 方式 中 ， 你 也 可 以 使 用 小 写字 母 ， 不 过 也 有 的 软件 不 支持 它们 ， 例 
如 Sun 的 Java regex Package。 流 派 不 同 ， 对 字母 和 数字 之 外 的 字符 的 处 理 是 非常 不 同 的 ， 
所 以 我 推荐 在 使 用 \c 时 只 使 用 大 写字 母 。 


相关 提示 : GNU Emacs 支持 此 功能 , 但 它 使 用 的 元 序列 非常 奇特 ?\“char (例如 : ?\^H 匹 
Bc ASCII 编码 中 的 退 格 字符 )。 


L 
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表 3-7: 部 分 工具 软件 及 它们 的 正则 表达 式 支 持 的 八进制 和 十 六 进 制 转 义 


= Ps COR 

Tel PY | N77, \377 | \xs\UFFFF; \UFFFFFFFF 
Perl \0, \77, \377 \xF; \xFF; \x{-") 
Pe S a CAC T 

> a Y Aenea ES 

ae pe | 
| 


A EA 

E Teaser 

Ruby NAF, WFP 
\0 一 一 \01 匹配 字 节 NUL， 而 其 他 一 位 数字 的 八进制 转 义 是 不 支持 的 。 
\7,\77 一 一 一 位 和 两 位 八进制 转 义 都 支持 

\07 一 一 支持 开头 为 0 的 两 位 八进制 转 义 

\077 一 一 支持 开头 为 0 的 3 位 八进制 转 义 

\377 一 一 支持 不 超过 \377 的 3 位 八进制 转 义 

\0377 一 一 支持 不 超过 \0377 的 4 位 八进制 转 义 

\777 一 一 支持 不 超过 \777 的 3 位 八进制 转 义 

\xX… 一 一 容许 出 现任 意 多 位 数字 

\x{…) 一 一 \x{…} 容 许 出 现任 意 多 位 数字 

\XF、\XFF 一 一 以 \x 开头 ， 容 许 出 现 一 到 两 位 十 六 进 制 转 义 

\UFFFF 一 一 以 \u 开头 的 4 位 十 六 进 制 转 义 

\UFFFF 一 一 以 \U 开头 的 4 位 十 六 进 制 转 义 

\UFFFFFFFF 一 一 以 \U 开头 的 8 位 十 六 进 制 数字 (参考 第 91 页 的 版 本 信息 ) 


字符 组 及 相关 结构 


Character Classes and Class-Like Constructs 


现在 许多 流派 中 ， 都 有 多 种 方法 在 正则 表达 式 的 某 个 位 置 指定 一 组 字符 ， 不 过 最 通行 的 方 
法 还 是 使 用 普通 字符 组 。 


普通 字符 组 : [a-z] 和 [^a-z] 


我 们 已 经 介绍 过 字符 组 的 基本 概念 ， 不 过 我 还 是 要 强调 ， 元 字符 的 规定 在 字符 组 内 外 是 有 
差别 的 。 例 如 ， 在 字符 组 内 部 ”永远 都 不 是 元 字符 ， 而 -通常 都 是 元 字符 。 有 些 元 序列 ， 
例如 \b， 在 字符 组 内 外 的 意义 是 不 一 样 的 (一 116) 。 










i 


S 







PHP (preg #44) 
MySQL 





GNU egrep 
GEU grep 
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在 大 多 数 系统 中 ， 字 符 组 内 部 的 顺序 环视 是 无 关 紧 要 的 ， 而 且 使 用 范围 表示 法 而 不 是 列 出 
范围 内 的 所 有 字符 并 不 会 影响 执行 速度 (例如 ，[0-9] 与 [908176354] 是 一 样 的 )。 相 反 ， 
某 些 实现 方式 不 能 完全 优化 字符 组 (比如 Sun 提供 的 Java regex package) ， 所 以 最 好 是 使 用 
范围 表示 法 ， 因 为 如 果 有 差别 ， 这 种 表示 法 的 速度 会 快 一 些 。 


字符 组 通常 表示 肯定 断言 (positive assertion)。 也 就 是 说 ， 它 们 必须 匹配 一 个 字符 。 排 除 型 
字符 组 仍然 需要 匹配 一 个 字符 ， 只 是 它 没有 在 字符 组 中 列 出 而 已 。 把 排除 型 字符 组 理解 为 
“匹配 未 列 出 字符 的 字符 组 ”或 许 更 容易 一 些 (请 务必 阅读 下 一 节 中 关于 点 号 和 排除 型 字 
符 组 的 警告 )。'[^LMNOP] 通常 等 价 于 '[\x00-kQ-\xFF];， 即 使 在 规定 严格 的 8 位 系统 中 ， 
这 仍然 成 立 , 但 是 在 Unicode 之 类 字符 的 值 可 能 大 于 255 (\xFF) 的 系统 中 ， 排 除 型 字符 组 
'{*LMNOP] J 可 能 包括 成 千 上 万 个 字符 一 一 只 是 不 包含 L、M、N、0 和 P。 


请 务必 理解 使 用 范围 表示 法 的 基本 字符 组 。 例 如 ， 用 '[a-z] 匹配 字母 就 很 可 能 存在 遗漏 ， 
而 且 在 任何 情况 下 显然 都 不 是 “所 有 字母 ”。 而 [a-zA-2z] 则 能 匹配 所 有 字母 , 至 少 对 于 ASCH 
编码 来 说 是 这 样 的 (请 参考 “Unicode 属性 ”中 的 \p{DL} 亚 121)。 当 然 ， 在 处 理 二 进 制 数据 
时 ， 字 符 组 中 的 “\x80-\xFF” 范 围 表 示 法 完全 适用 。 


几乎 能 匹配 任何 字符 的 元 字符 : 点 号 


在 某 些 工具 软件 中 ， 点 号 用 来 缩 略 表示 可 以 匹配 任何 字符 的 字符 组 ， 而 在 其 他 工具 中 ,点 
号 能 匹配 除了 换行 符 之 外 的 任何 字符 。 这 差别 很 细微 ， 但 如 果 所 用 的 工具 能 够 处 理 包 含 多 
个 逻辑 行 的 目标 文本 《或 者 是 文本 编辑 器 中 的 多 个 逻辑 行 的 文本 )， 它 就 非常 重要 。 关 于 点 
号 ， 需要 注意 的 有 : 


。 在 Sun 的 Javaregex package 之 类 的 支持 Unicode 的 系统 中 ， 点 号 不 能 匹配 Unicode 的 
{TRE (7109), 


。 ERRA (7111) 会 改变 点 号 的 匹配 规则 。 
° POSIX 规定 ， 点 号 不 能 匹配 NUL ( 值 为 0 的 字符 )， 尽 管 大 多 数 脚本 语言 容许 文本 中 
出 现 NULL (而 且 可 以 用 点 号 来 匹配 ) 。 


点 号 ， 还 是 排除 型 字符 组 


如 果 所 使 用 的 工具 能 够 在 多 行文 本 中 进行 搜索 ， 请 务必 注意 点 号 ， 它 在 通常 情况 下 不 能 匹 
配 换行 符 ， 而 排除 型 字符 组 [^"] 通常 都 可 以 。 如 果 把 “… .* "替换 为 “[^"]*"， 可 能 会 带 
来 意 想不到 的 效果 。 点 号 的 匹配 规定 一 般 可 以 通过 变换 匹配 模式 来 更 改 一 一 请 参考 第 111 
页 的 “点 号 通 配 模式 ”。 
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单个 字 节 


Perl 和 PCRE (也 包括 PHP) 支持 用 \c 匹配 单个 字 节 ， 即 使 该 字 节 位 于 某 个 多 字 节 编码 的 
字符 之 中 (相反 ， 其 他 功能 都 是 基于 字符 的 )。 这 个 功能 很 危险 ， 如 果 运 用 不 当 ， 可 能 会 导 
致 内 部 错误 ， 所 以 只 有 在 清楚 自己 所 作 所 为 的 情况 下 ， 才 能 使 用 它 。 我 找 不 到 恰当 运用 的 
例子 ， 所 以 下 文 不 再 提 及 。 


Unicode 组 合 字 符 序 列 : \X 


Perl 和 PHP 支持 用 \x 缩 略 表示 八 P(M) \p{M} *， 它 可 以 视 为 点 号 的 扩展 。 它 匹配 一 个 基本 
字符 ( 除 \p{M) 之 外 的 任何 字符 )， 之 后 可 能 有 任意 数目 的 组 合 字符 ( 除 \p(M} 之 外 )。 


之 前 已 经 介绍 过 (7107), Unicode 体系 包括 基本 字符 和 组 合 字符 ,二 者 可 以 合成 “看 起 来 ” 
的 单个 字符 ， 例 如 a ('a” 的 编码 是 u+0061, MAAS “” 的 编码 是 U+0300)。 有 的 字符 
可 能 包含 不 止 一 个 的 组 合 字 符 。 例 如 ,““” 就 包括 “c" ， 然 后 是 变 音 符 “." ， 最 后 是 短 音 
符 ““”(Unicode 编码 分 别 是 U+0063, U+0327 和 U+0306)。 


如 果 和 希望 匹配 “francais” 或 者 “francais”， 仅 仅 使 用 ‘fran.aiss MH ‘fran(cClais: MAB 
保险 ， 因 为 此 方法 假设 “c” 用 单个 Unicode 代码 点 U+00c7 表示 ， 而 不 是 “c” 加 上 变 音 符 

(U+0063 加 上 U+0327)。 如 果 需 要 专门 处 理 ， 可 以 使 用 fran(c,?1c)aisi， 不 过 在 这 里 ， 
用 fran\Xais! 取 代 'fran.ais! 是 个 好 办 法 。 


除了 能 够 匹配 结尾 的 组 合 字符 之 外 ，\X 与 点 号 还 有 两 个 差别 。 其 一 是 ，\X 始终 能 匹配 换行 
符 和 其 他 Unicode 行 终结 符 (一 109)， 而 点 号 只 有 在 点 号 通 配 模式 (7111), 或 者 工具 软件 
提供 的 其 他 匹配 模式 下 才 可 以 。 另 一 点 是 ， 点 号 通 配 模式 下 的 点 号 无 论 什么 情况 下 都 能 匹 
配 任何 字符 ， 而 、\X 不 能 匹配 以 组 合 字符 开头 的 字符 。 


字符 组 简 记 法 : \w、\d、\e、\W、\D、\S 


通常 支持 的 简 记 法 有 : 


\d 数字 等 价 于 ' [0-9],， 如 果 工 具 软件 支持 Unicode， 能 匹配 所 有 的 Unicode MF. 
\D” 非 数字 字符 BHF 【^\dji。 


w ”单词 中 的 字符 一 般 等 价 于 '[a-zA-z0-9_]j。 菜 些 工具 软件 中 wj 不 能 匹配 下 画 线 ， 
而 另 一 些 工具 软件 的 "wj 则 能 支持 当前 locale (787) 中 的 所 有 数字 和 字符 。 如 果 
支持 Unicode, \w 通常 能 表示 所 有 数字 和 字符 , 而 在 java.util.regex 和 PCRE 

(也 包括 PHP) 中 ,，\wj 严 格 等 价 于 '[a-zA-20-9_],。 
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w ， 非 单词 字符 StF i+w). 


\s 空白 字符 在 支持 ASCH 的 系统 中 , 它 通 常 等 价 于 '[ 改 ft\n\r\t\v]ie 在 支持 Unicode 
的 系统 中 ， 有 时 包含 Unicode 的 “换行 ”控制 字符 U+0085， 有 了 时 包含 “空白 
(whitespace) ”属性 \p{2} (参见 下 一 节 的 介绍 )。 


\s” 非 空白 字符 $F Asle 


87 页 已 经 介绍 过 ，POSIX 的 locale 设 定 会 影响 这 些 简 记 符号 的 含义 (尤其 是 \w) 。 支 持 
Unicode 的 程序 中 ，\w 通 常 能 匹配 更 多 的 字符 ， 例 如 \p{L} (下 一 节 介 绍 ) 和 下 画 线 。 


Unicode 属性 ， 字 母 表 和 区 块 : \p{Prop}、\P{Prop} 


表面 上 看 ，Unicode 只 是 一 套 字 符 映 射 规则 (7106), CK Unicode 标准 远 远 不 止 这 些 。 它 
还 定义 了 每 个 字符 的 性 质 (qualities) ， 例 如 “这 个 字符 是 小 写字 母 ",“ 这 个 字符 是 从 右 往 左 
看 的 ，“ 这 个 字符 是 标记 字符 (mark) ， 它 必须 与 其 他 字符 一 同 使 用 ”等 等 。 


不 同 的 正则 表达 式 系统 对 这 些 属性 的 支持 也 不 相同 ,但 是 许多 支持 Unicode 的 程序 能 够 通过 
Ap{gualipjj 和 八 P{gualip])i 支 持 其 中 的 一 部 分 。 比 如 pt) 就 是 个 简单 的 例子 ,这 里 “5， 
的 意思 是 “字母 (letter)”( 相 对 于 数字 number、 标 点 punctuation 和 口音 accent, 2%), ‘L’ 
是 一 种 普通 属性 (general property , 也 称 为 分 类 category ) 。 我 们 马上 会 了 解 到 ,可 以 用 \p{…)， 
和 "\P{…) ,来 测试 其 他 “属性 ”， 当 然 支持 最 广泛 的 还 是 常见 的 属性 。 


常见 的 属性 请 见 表 3-8。 每 个 字符 (实际 上 是 代码 点 , 包括 那些 目前 没有 对 应 字符 的 代码 点 ) 
都 可 以 用 一 个 普通 属性 匹配 。 普 通 属性 的 名 字 是 单个 字符 (例如 “L” 表 示 字 母 letter，'s' 
表示 符号 symbol， 等 等 )， 但 是 某 些 系统 中 可 以 用 多 个 字母 表述 属性 (fn ‘Letter’ A 
Symbol )， 比 如 Perl 就 支持 这 样 。 


在 某 些 系 统 中 ， 单 字母 属性 名 可 能 不 需要 花 括 号 (例如 ， 用 \pL 而 不 是 \p{L) )。 有 的 系统 
可 能 要 求 (或 者 是 容许 ) {EA ‘In’ ae ‘Is’ 前 级 (例如 \p{IsL}) )。 讲解 扩展 属性 (additional 
qualities) 了 时， 我 们 会 见 到 要 求 使 用 Is/In 前 缀 的 例子 (E 12)。 


按照 表 3-9， 每 个 用 单字 符 表示 的 普通 属性 可 以 进一步 分 为 多 个 双 字 母 表 示 的 子 属性 
(sub-property) ， 例 如 “字母 《letter)” 又 可 以 分 为 “小 写字 母 "、“ 大 写字 母 "、“ 标 题 首 字 


注 12: 我 们 会 看 到 ( 见 第 125 页 的 表格 ) ， 所 有 的 IS/In 前 缓 都 有 点 多 余 。 老 版 本 的 Unicode 
推荐 一 种 做 法 ， 而 更 早 的 实现 推荐 另 一 种 。 在 Perl 5.8 的 开发 过 程 中 ， 我 与 负责 简化 Perl 
的 小 组 一 起 工作 。 目 前 Perl 对 此 的 规定 是 : 如 非 指定 要 使 用 某 个 Unicode 区 块 ， 就 不 应 
HRA ‘Is’ AŽ ‘In’, SRMMLARA ‘In’, 
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表 3-8: 基本 的 Unicode 属性 分 类 





\p{L} \p{Letter}) 一 一 字母 

\p{M} \p {Mark} 不 能 单独 出 现 , 而 必须 与 其 他 基本 字符 一 起 出 现 (重音 符号 、 
CMH, FF) 的 字符 

\p{Z} \p{Separator) 一 一 用 于 表示 分 隔 , 但 本 身 不 可 见 的 字符 (各 种 空白 字符 ) 

\p{8} \p {Symbol } 一 一 各 种 图 形 符号 (Dingdats) 和 字母 符号 

\p im} \p{Number) 一 一 任何 数字 字符 

\p{P} \p{Punctuation) 一 一 标点 字符 

\p{C} \p{other} 一 一 匹配 其 他 任何 字符 (很 少 用 于 正常 字符 ) 


E} (titlecase letter)”, “修饰 符 字母 "和 “其 他 字母 "。 每 个 代码 点 能 且 只 能 属于 一 种 子 属性 。 


要 补充 的 是 ， 某 些 实现 方式 支持 特殊 的 复合 子 属性 ， 例 如 用 \p{Lg} 表 示 “ 分 大 小 写 的 
(cased)” 字 母 ， 也 就 是 说 '[\p{Lu}\p{L1}\p{Lt}]1。 


表 3-9 还 给 出 了 某 些 实现 方式 支持 的 属性 名 的 全 称 (例如 ，“Lowercase_Letter”， 而 不 是 
“L1”)。 按 照 Unicode 的 标准 ， 各 种 形式 都 应 该 能 够 接受 (例如 “LowercaseLetter 
“LOWERCASE_ LETTER’, ‘Lowercase*Letter’. ‘lowercase-letter’), Wit, ATIR 


持 一 致 ， 我 推荐 使 用 表 3-9 中 的 形式 ) 。 


字母 表 (Scripts) 有 的 系统 能 够 按照 字母 表 (书写 系统 writing system) WAFL '\p{---}, 
来 匹配 。 例 如 ， 用 \p{Hebrew} 匹配 希 伯 来 文 独 有 的 字符 (但 不 包含 其 他 书写 系统 中 常见 的 
字符 ， 例 如 空格 和 标点 )。 


某 些 字母 表 是 基于 语言 的 (例如 印度 古 哈 拉 地 语 、 泰 国语 、 切 罗 基 语 ， 等 等 )。 有 的 覆盖 了 
多 种 语言 (例如 拉丁 文 、 西 里 尔 文 )， 还 有 些 语言 包含 多 种 字母 表 ， 例 如 日 语 的 字符 就 来 自 
平 假名 、 片 假名 、 汉 语 和 拉丁 语 。 请 读者 参考 自己 系统 的 文档 获取 完整 的 信息 。 


字母 表 不 会 包含 特定 的 书写 系统 中 的 所 有 字符 ， 而 只 包含 独 属 于 (或 者 几乎 独 属 于 ) EE 
写 系统 中 的 字符 。 常 见 的 字符 ， 例 如 空格 和 标点 不 属于 任何 字母 表 ， 而 是 属于 通用 的 
IsCommon 伪 字 母 表 (pseudo-script) ,用 \p{Iscommon)) 匹 配 。 还 有 一 个 伪 字 母 表 Inherited, 
它 包括 从 其 所 属 的 字母 表 中 基本 字符 继承 而 来 的 组 合 字符 。 
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表 3-9: 本 的 Unicode 子 属性 














\p{Ll} | \p{ pr 小 写字 母 。 

\p{Lu} | \p{Uppercase_Letter}——-k 5 F#, 

\p{Lt} | \p{Titlecase_Letter} 一 一 出 现在 单词 开头 的 字母 (例如 ,字符 DZ 是 小 写字 母 
dz 和 大 写字 母 DZ 的 首 字母 形式 )。 

\p{L&} | \p{L1}、\p{Lu}、\p{Lt} 并 集 的 简 记 法 。 

\p{Lm} | \p{Modifier_Letter}) 一 一 少数 形似 字母 的 ， 有 特殊 用 途 的 字符 。 

\p{Lo} | \p{Other_Letter) 一 一 没有 大 小 写 形式 ,也 不 属于 修饰 符 的 字母 , 包括 希 伯 来 语 、 
阿拉 伯 语 、 和 孟加拉 语 、 泰 国语 、 日 语 中 的 字母 。 

\p{Mn} | \p{Non_ Spacing Mark} 用 于 修饰 其 他 字符 的 “字符 (Characters)”， 例 如 重 
音符 号 、 变 音符 号 、 某 些 “ 元 音 记号 ”和 语调 标记 。 

\p{Mc) | \p{Spacing_Combining Mark)} 一 一 会 占据 一 定 宽度 的 修饰 字符 (各 种 语言 中 的 
大 多 数 “元 音 记 号 ”， 这 些 语言 包括 孟加拉 语 、 印 度 古 哈 拉 地 语 、 泰 米尔 语 、 泰 卢 
Bie, tae, DRE, Hae Fi, Mae HH). 

\p{Me} | \p{Encoleing_Mark)} 一 一 可 以 转 住 其 他 字符 的 标记 ， 例 如 圆 图、 方 框 、 钻 石 型 等 。 

\p{Zs} | \p{Space_Separator}) 一 一 各 种 空白 字符 ,例如 空格 符 、 不 间断 空格 (non-break 
Space) ， 以 及 各 种 固定 宽度 的 空白 字符 。 

\p{Zl} | \p{Line_Separator}——LINE SEPARATOR 字符 (U+2028), 

\p{Zp)} | \p{Paragraph_Separator }——-PARAGRAPH SEPARATOR 字符 (U+2029), 

\p{Sm} | \p{Math_Symbol}——& FHF. +. +, ATTERRA. 

\p{Sc} | \p{Currency_Symbol}——& ##HF,. $, ¢. E …。 

\p{sk} | \p{Modifier_Symbol) 一 一 大 多 数 版 本 中 它 表 示 组 合 字 符 , 但 是 作为 功能 完整 的 
字符 ， 它 们 有 自己 的 意义 。 

\p{So} | \p{Other_Symbol}——4# Ph AS, BRAD, FLAT, UREFAHAH 
中 文字 符 ， 等 等 。 

\p{Nd} | \p{Decimal_ Digit_Number) 一 一 各 种 字母 表 中 从 0 到 9 的 数字 (不 包括 中 文 、 
日 文 和 韩文 ) 。 

\p{N1} | \p{Letter_Number}) 一 一 几乎 所 有 的 罗马 数字 ， 

\p{No} | \p{Other_Number) 一 一 作为 加 密 符 号 (superscripts) 和 记号 的 数字 ， 非 阿拉 伯 数 
字 的 数字 表示 字符 (不 包括 中 文 、 日 文 、 韩 文中 的 字符 )。 

\p{Pd} | \p{Dash_ Punctuation}) 一 一 各 种 格式 的 连 字 符 (hyphen) 和 短 划 线 (dash), 

\p{Ps) | \p{Open_ Punctuation) 一 一 (、 和 和 《等 字符 。 

\p{Pe} | \p{Close_Punctuation}——), “#e) FFA. 

\p{Pi) | \p{rmmitial_Punctuation}——«, “, <#F##, 

\p{Pf£) | \p{Final_Punctuation »、”、> 等 字符 。 

\p{Pc} ， 如 下 画 线 。 

\p{Po} | \p(other_ RS Ee rere aa p 

\p{Cc} | \p{control}——ASCII $- Latin-1 编码 中 的 控制 字符 Som LF, CR F). 

\p{Cf£} | \p{Formatj 一 一 用 于 表示 格式 的 不 可 见 字符 。 

\p{Co} | \p{Private_Use) 一 一 分 配 与 私人 用 途 的 代码 点 (例如 公司 的 logo) 。 

\p{Cn} | \p{Unassigned) 一 一 目前 尚未 分 配 字 符 的 代码 点 。 
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Kik (Block), KRW (但 是 比 不 上 ) 字母 表 ， 区 块 表示 Unicode 字符 映射 表 中 一 定 范围 
内 的 代码 点 。 例 如 ，Tibetan 区 块 表 是 从 U+0F00 到 U+OFFF 的 256 个 代码 点 。 其 中 的 字符 ， 
在 Perl 和 java.util.regex 中 可 以 用 \p{InTibetan} 来 匹配 ， 在 .NET 中 可 以 用 
\p{IsTibetan} 来 匹配 (细节 见 后 文 )。 


区 块 有 许多 种 ， 包 括 对 应 大 多 数 书写 系统 的 区 块 〈 和 希 伯 来 、 泰 米尔 、 基 本 拉丁 语 、 西 里 尔 
文 等 等 ) ， 以 及 特殊 的 字符 组 型 〈 货 币 、 稍 头 、 文 本 框 、 印 刷 符 号 等 ) 。 


Tibetan 是 一 个 典型 的 区 块 ， 因 为 其 中 的 所 有 字符 都 是 按照 西藏 文 定义 的 ， 此 区 块 之 外 不 
存在 专属 于 藏 语 的 字符 。 不 过 ， 区 块 仍然 不 如 字母 表 ， 原 因 如 下 : 


。 ”区 块 可 能 包含 未 赋值 的 代码 点 。 例 如 ，Tibetan 区 块 中 大 约 有 25% 的 代码 点 没有 分 配 
字符 。 


。 ”并 不 是 看 起 来 与 区 块 相关 的 所 有 字符 都 在 区 块 内 部 。 例 如 ， 在 currency 区 块 中 就 没 
有 通用 的 货币 符号 T, 也 没有 常见 的 $、¢、£、E 和 ¥ (幸好 , 这 时 候 我 们 可 以 用 currency 
属性 \p{sc} ) © 


。 ”区 块 通常 包含 不 相关 的 字符 。 例 如 ¥ (表示 “元 ”) 属于 Latin_1_supplement KK, 


。 属于 某 个 字母 表 的 字符 可 能 同时 包含 于 多 个 区 块 。 例 如 ， 希 腊 字 符 同时 出 现在 creek 
和 Greek_Extended KA, 


对 区 块 的 支持 比 对 字母 表 的 支持 更 普遍 。 不 过 这 两 者 很 容易 混 请 ， 因 为 在 命名 上 存在 许多 
HH (fån, Unicode 同时 提供 了 Tibetan 字母 表 和 Tibetan KK), 


此 外 ， 按 照 下 页 的 表 3-10 所 示 ， 这 些 命 名 本 身 也 设 有 统一 的 标准 。 在 Perl 和 java.util. 
regex A, Tibetan 区 块 表 示 为 \p{fIinTibetan}), 但 是 在 .NET 中 又 表示 为 \p{ITeTibetan} 
(更 粳 糕 的 是 ， 在 Perl 中 这 是 Tibetan 字母 罕 的 另 一 种 表示 法 )。 


其 他 属性 (Other properties/qualities) 上 面 介绍 的 知识 并 不 是 通用 的 。 表 3-10 详细 介绍 了 它 
们 的 适用 情况 。 


要 补充 的 是 ，Unicode 还 定义 了 许多 能 够 通过 "\p{…) ,结构 访 问 的 属性 , 其 中 包括 字符 的 书 
写 顺 序 环视 (从 左 至 右 还 是 从 右 至 左 ， 等 等 )、 与 字符 相关 的 元 音 ， 以 及 其 他 属性 。 有 些 实 
现 方 式 还 容许 用 户 根据 需要 临时 创建 属性 。 请 参考 具体 的 程序 提供 的 文档 了 解 细节 。 


i 
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表 3-10: 属性 /字母 表 / 区 块 的 支持 情况 


特 和 性 es R oe 
VY 基本 属性 ， 例如 \p{L} 


这 过 BA rated Perl op va {iNet CO ERE 
/ / / 
V 基 本 属性 缩 略 表 示 法 ,例如 \pL / / / 
基本 属性 缩 略 表示 法 ， 例 如 \p{IsL)} / A 
JERAHA, Pilto\p{Letter} |v 


复合 属性 ， 例 如 \p{L&] ees i ese * ; 
/ 字母 表 ， 例 如 \p{Greek)} "á / 
字母 表 全 名 ， 例 如 \p{IeGreek} 
VY 区 块 ， 例如 \p{Cyrillic) ripe / 
VY 区 块 全 名 ,例如 \p{InCyrillic)} / / 
区 块 全 名 ， 例 如 \p{Iscyrillic} 
排除 功能 ， 例 如 P{…) 
排除 功能 ， 例 如 \p{^…} 


J \p{Any)} ¥ F\p{all} 
/\p{Assigned} 等 于 \P{Cn} | 等 于 \P{Ccn} 
w\pfUnassigned} ¥F\picn} | 等 于 \p{Cn} | 等 于 \p{Ccn) 


SUT SEE SEES CETTE (请 参考 第 91 页 的 版 本 信息 ) 


ET ES PE 
多 Ses “wi a e 
4 Ar 


< 
toes 





简单 的 字符 组 减法 : [ [a-z] - [aeiou]] 


NET 提供 的 字符 组 “减法 ”容许 我 们 在 字符 组 中 进行 减法 运算 。 例 如 ，[ [a-z]- [aeiou])， 
匹配 的 字符 就 是 [a-z]) 能 够 匹配 字符 的 减 去 [aeiou]) 能 够 匹配 的 字符 ， 也 就 是 ASCII 编 
码 中 小 写 的 非 元 音字 母 。 


另 一 个 例子 是 [\p{P}-[\p{Psj\p{Pelj]],， 它 能 够 匹配 \p{P)} 中 除 '[\p{Ps}\p{Pe)] 之 外 
的 字符 ， 也 就 是 说 ， 它 能 匹配 除了 》 和 (之 类 成 对 的 符号 之 外 的 所 有 标点 符号 。 


完整 的 字符 组 集合 运算 : [[a-z] && [*aeiou]] 


Sun 的 Java regex package 中 的 字符 组 能 够 进行 完整 的 集合 运算 (并 、 减 、 交 )。 它 的 语法 有 
别 于 前 一 节 中 简单 的 字符 组 减法 (尤其 是 ,在 Java 中 匹配 小 写 非 元 音字 母 的 字符 组 [[a-z]&& 
[^aeiou]])。 在 详细 介绍 减法 之 前 ， 我 们 先 来 看 两 个 简单 的 集合 运算 : OR 和 and, 


OR 容许 用 户 以 字符 组 方式 在 字符 组 中 添加 字符 : [abcxyz] 也 可 以 表示 为 [[abc] [xyz]]、 
[abe [xyz]] 或 【[abc]xyz] 等 等 。OR 用 来 把 多 个 集合 合并 为 新 的 集合 。 从 概念 上 说 ， 它 
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有 点 像 多 种 语言 提供 的 “ 按 位 或 ”运算 符 :“! ”或 是 “or "。 在 字符 组 中 ，OR 只 不 过 是 一 
种 简 记 法 ， 尽 管 包括 排除 型 字符 组 在 某 些 情况 下 更 方便 。 


AND 对 两 个 集合 进行 概念 上 的 “与 ”运算 ， 只 保留 同时 属于 两 个 字符 组 的 字符 。 它 的 写法 是 
在 两 个 字符 组 中 添加 特殊 的 字符 组 元 字符 gg 。 例 如 [\p{InThai}&g\P{cn}] ， 它 通过 对 
\p{InThai} 和 \P{Cn} 进 行 交 运算 (只 保留 同时 属于 两 个 集合 的 字符 )， 匹 配 thai 区 块 中 所 
有 已 经 赋值 的 代码 点 。\P{…} 中 的 “P” 是 大 写 ， 匹 配 不 具备 此 属性 的 字符 ， 所 以 \P {cn} 
匹配 的 就 是 除 未 赋值 的 代码 点 之 外 的 代码 点 ， 也 就 是 已 经 赋值 的 代码 点 (要 是 Sun 能 够 识 
别 已 赋值 属性 (Assigned quality) ， 就 可 以 用 \p{assigned} 赫 换 \P{cn) ) 。 


KATERA OR 和 AND, 它们 的 含义 取决 于 用 户 的 看 法 。 例如 [fthis] [that]] 读 作 “[this] 
或 者 [that ] 匹配 的 字符 ”， 其 实 它 的 真正 意思 是 “[this] 和 [that] 能 够 匹配 的 所 有 字符 ”， 
这 只 是 对 同一 个 问题 的 两 种 看 法 。 


相 比 之 下 ,AND 要 清楚 一 些 : [\p{InThai}gg\P{cn}] 读 作 “ 只 匹配 在 \p{InThai} 和 \P{cn)} 
中 出 现 的 字符 ”， 尽 管 它 有 时 候 也 读 作 “匹配 属于 \p{InThai} 和 \P{cn} 的 交集 中 的 字符 。” 


看 法 的 不 同 可 能 会 造成 混乱 : 我 叫做 oR 和 aND 的 运算 ， 某 些 人 可 能 叫做 AND 和 


INTERSECTION。 


以 集合 运算 符 进 行 字符 组 和 的 减法 \P{cn} 可 以 写作 [^\p{cn}] ， 所 以 在 匹配 “Thai block 中 
已 经 赋值 的 字符 ”了 时，[\p{InThai}gg\P{Cn}] 也 可 以 写作 [\p{InThai}&gg[^\p{cn}]]。 
这 样 的 改变 并 没有 多 少 意义 ， 只 是 它 有 助 于 说 明 一 个 通用 的 模式 :“Thai block 中 已 赋值 字 
符 ” 比 “所 有 Thai block 中 的 字符 ， 减 去 未 赋值 的 字符 ”更 好 理解 ， 于 是 我 们 知道 
[\p{InThai)&&{*\p(Cn},]] #7 “\p(InThai}WMZ\picn}”, 








这 样 就 回 到 了 本 节 开 头 '{[[a-z]&&[^aeiou] ] 的 例子 ， 现在 我 们 知道 如 何 进行 字符 组 的 减 
法 了 。 其 模式 为 , [mis gg[^that] ] ,表示 “[this] 减 去 [that]”。 我 发 现 用 gg 和 [^…] 进行 双 重 
否定 很 难 记 忆 ， 所 以 记 住 模式 [… alae] ;就 够 了 。 


通过 环视 功能 模拟 字符 组 的 集合 运算 如 果 所 使 用 的 程序 不 支持 字符 组 集合 运算 ， 但 支持 环 
视 功 能 (7133), 则 可 以 自己 模拟 集合 运算 。[\p{InThaijgg[^\ptcnj]1] 可 以 用 环视 功能 
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写成 ”(?i\p{cn})\p{InThai}l (H 13)。 尽 管 它 并 不 如 内 建 的 集合 运算 有 效率 ， 环 视 仍然 
是 非常 方便 的 做 法 。 这 个 例子 可 以 用 4 种 不 同 的 方式 来 实现 (在 .NET 中 需要 以 IsThai $ 
换 InThai® 125), 





(?!\p{Cn}) \p{InThai} 
{?=\P{Cn}) \p{InThai} 
\p{InThai} (?<!\p{Cn}) 
\p{InThai} (?<=\P{Cn}) 


POSIX“ 字 符 组 ” 方 括号 表示 法 


我 们 通常 所 说 的 字符 组 ， 在 POSIX 标准 中 称 为 方 括号 表达 式 (bracket expression), POSIX 
中 的 术语 “字符 组 ” 指 的 是 在 方 括号 表达 式 ( 注 14) 内 部 使 用 的 一 种 特殊 的 功能 (special 
feature) ， 而 我 们 可 以 认为 它们 是 Unicode 的 字符 属性 的 原型 。 


POSIX 字符 组 是 POSIX 方 括号 表达 式 使 用 的 几 种 特殊 元 字符 序列 之 一 。 比 如 [ :lower: ] 表 
示 当 前 locale (787) 中 的 所 有 小 写字 母 。 对 英文 文本 来 说 ，[ :1ower:] 等 于 a-z。 因 为 整 
个 序列 只 有 在 方 括号 表达 式 内 才 是 有 效 的 ,所 以 对 应 的 完整 的 字符 组 应 该 是 [[ :lower:]]u。 
这 种 表示 法 的 确 很 难看 。 但 是 ， 它 比 La-z], 更 好 用 ， 因 为 它 能 包含 ò, A 之 类 当前 locale 
中 定义 的 “小 写字 母 ”。 


POSIX 字符 组 的 详细 列表 根据 locale 的 变化 而 变化 ， 但 是 下 面 这 些 通常 都 能 支持 : 


[:alnum:] 字母 字符 和 数字 字符 。 

[:alpha:] 字母 。 

[:blank:] 空格 和 制 表 符 

[:cntrl:] 控制 字符 。 

[:digit:] KF. 

[:graph:] ” 非 空 字符 ( 即 空白 字符 ， 控 制 字符 之 外 的 字符 )。 
[:lower:] 小 写字 母 。 

[:print:] 类 似 [:graph:]， 但 是 包含 空白 字符 。 
(:punct:] 标点 符号 。 

[:space:] ”所 有 的 空白 字符 (【[:blank:] 、 换 行 符 、 回 车 符 及 其 他 )。 
[:upper:] 大 写字 母 。 

[ 


:xdigit:] 十 六 进 制 中 容许 出 现 的 数字 (例如 0-9a-fA-F)。 


注 13: 实际 上 ， 在 Perl 中 ， 这 个 例子 可 能 可 以 写作 "\p{Thai};， 因 为 在 Perl 中 \p{Thai) 表 是 
FRR, COPARMMMAGA. Thai 字母 表 和 区 块 之 前 的 其 他 差异 很 小 。 如 果 要 确定 
某 个 字母 表 或 者 区 块 实际 包含 了 哪些 字符， 最 好 的 办 法 还 是 参考 文档 。 在 这 里 ， 字 母 表 
其 实 少 了 一 些 区 块 中 包含 的 特殊 字符 。 请 泰 考 hitp:/unicode.org 获得 所 有 细节 。 

ig 14: 一 般 来 说 ， 本 书 中 的 “字符 组 (character class)” fe “POSIX 括号 表达 式 (POSIX bracket 
expression)” 是 指 的 同一 种 结构 ， 而 “POSIX 字 桂 组 ” 指 的 是 下 面 介绍 的 特殊 的 类 似 范 
围 表 示 法 的 字符 组 特性 。 


iti 
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支持 Unicode 属性 (7121) 的 系统 可 能 会 在 Unicode 支持 中 加 入 这 些 POSIX 结构 。Unicode 
属性 结构 更 为 强大 ， 所 以 如 果 可 能 ， 这 些 结构 应 该 有 提供 。 


POSIX “collating 序列 ” 方 插 号 表示 法 : [[.span-11.]] 


Local 可 以 包含 对 应 的 collating 序列 , 用 来 决定 其 中 的 字符 如 何 排序 。 例 如 , 在 西班牙 语 中 ， 
按照 惯例 ，11 两 个 字母 在 排序 时 作为 一 个 逻辑 字符 (例如 在 tortilla 中 ), 排 在 1 和 nm 之 间 ， 
日 尔 曼 语 字 母 8 位 于 s Alt 中间， 但 是 排序 时 类 似 它 等 价 于 两 个 字母 ss。 这 些 规则 可 能 用 
collating 序列 命名 来 表示 ， 例 如 ，span-11 和 eszet。 


collating 序列 会 把 多 个 实体 字符 映射 到 单个 逻辑 字符 , 在 span-11 的 例子 中 , 11 被 视 为 “一 
个 字符 ”, 来 保持 与 POSIX 正则 引擎 的 兼容 。 也 就 是 说 ，[^abc], 能 够 匹配 “11” 两 个 字母 。 


collating 序列 的 元 素 可 以 包含 在 方 括号 表达 式 中 ， 使 用 [.… .] 表 示 法 : 'torti[[. 
span-11.]]al 匹 配 tortilla。 单 个 collating 序列 可 以 匹配 组 合 而 成 的 字符 。 此 种 情况 下 ， 
方 括号 表达 式 可 以 匹配 多 个 实体 字符 。 


POSIX “字符 等 价 类 ” 方 括号 表示 法 : [[=n=] ] 


有 的 locale 定义 了 字符 等 价 类 ， 表 示 某 些 字符 在 进行 排序 之 类 的 操作 时 应 视 为 等 价 。 例 如 ， 
某 locale 可 能 定义 了 这 样 一 个 等 价 类 “n', 包含 n 和 二 , 或 者 是 另 一 个 等 价 类 “a'" ,包含 a、 
区 和。 等 价 类 的 表示 法 类 似 [:… :1], 但 是 用 等 号 取代 冒号 ,我们 可 以 在 方 括 号 表达 式 中 引 
用 这 些 等 价 类 : '[[=n=] [=a=]]1 能 够 匹配 刚才 出 现 的 任意 一 个 字符 。 


如 果 一 个 字符 等 价 类 的 名 称 只 包含 一 个 字母 , 但 没有 在 locale FEX, 则 它 默 认 就 等 于 同样 
名 字 的 collating 序列 。local 通常 包含 作为 collating 序列 的 普通 字符 [.a.]、[.b.]、[.c.] 
之 类 一 一 如 果 没 有 定义 特殊 的 等 价 类 ，[[=n=] [=a=]], 就 等 于 '[nalj。 


Emacs 语法 类 


GNU Emacs 不 支持 传统 的 \w、\s 之 类 相反 , 它 使 用 特殊 的 序列 来 引用 “语法 类 (syntax 


classes)”; 
\schar 匹配 Emacs 语法 类 中 char 描述 的 字符 。 
\Schar 匹配 不 在 Emacs 语法 类 中 的 字符 。 
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sw 匹配 “构成 单词 (word constitvent)” 的 字符 , 而 仆 s-, 匹 配 “ 空 白字 符 " 。 在 其 他 系统 
中 ， 它 们 分 别 写作 改 w 和 八 si。 


Emacs 的 特殊 之 处 在 于 ， 在 Emacs 中 ， 这 些 字 符 组 包含 的 字符 是 可 以 临时 更 换 的 ， 所 以 ， 
构成 单词 的 字符 组 中 的 字符 可 以 根据 所 编辑 文本 的 变化 而 变化 。 


锚 点 及 其 他 “ 零 长 度 断言 


Anchors and Other “Zero-Width Assertions ” 


RAC “SETS” FFARR A, RAHA, 


行 /字符 串 的 起 始 位 置 : ^、\&A 


脱 字符 “, 匹配 需要 搜索 的 文本 的 起 始 位 置 ， 如 果 使 用 了 增强 的 行销 点 匹配 模式 (7112), 
它 还 能 匹配 每 个 换行 符 之 后 的 位 置 。 在 某 些 系 统 中 ， 增 强 模 式 下 人 ^, 还 能 匹配 Unicode 的 行 
终结 符 (7109), 


如 果 可 以 使 用 ， 则 无 论 在 什么 匹配 模式 下 ,"\A 总 是 能 够 匹配 待 搜 索 文本 的 起 始 位 置 。 
行 /字符 串 的 结束 位 置 : $、\z 和 \z 


从 下 一 页 的 表格 3-11 可 以 看 出 ,“ 行 结束 位 置 (end of line)” 的 概念 比 行 开头 位 置 要 复杂 。 
ERAN CARES, Ss 的 意义 也 不 同 ， 不 过 最 常见 的 意思 是 匹配 目标 字符 串 的 末尾 ， 也 
可 以 匹配 整个 字符 串 末 尾 的 换行 符 之 前 的 位 置 。 后 一 种 情况 更 为 常见 , EAE s$ (匹配 “以 
s 结尾 的 行 ") 来 匹配 “…s 四 ' ， 即 以 s 和 换行 符 结尾 的 行 。 


$1 的 另 两 种 常见 的 意思 是 ， 只 匹配 目标 文本 的 结束 位 置 , 或 是 匹配 任何 一 个 换行 符 之 前 的 
位 置 ,在 某 些 Unicode 系统 中 , 这 些 规 则 中 的 换行 符 会 被 替换 为 Unicode 的 行 终结 符 ( 亚 109) 
(Java 为 了 处 理 Unicode 的 行 终结 符 ， 为 "$1 设 定 了 非常 复杂 的 语意 “370)。 


匹配 模式 (112) 可 以 改变 '$, 的 意义 ,匹配 字符 申 中 的 任何 换行 符 (或 者 是 Unicode 中 的 
行 终结 符 )。 


MRE, \z: 通 常 表示 “未 指定 任何 模式 下 ” '$ 匹配 的 字符 , 通常 是 字符 串 的 末尾 位 置 ， 
或 者 是 在 字符 串 末 尾 的 换行 符 之 前 的 位 置 。 作 为 补充 , \z, 只 匹配 字符 串 的 末尾 ， 而 不 考虑 
任何 换行 符 。 表 3-11 中 列 出 了 少数 例外 。 


itl 
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表 3-11: 脚本 语言 中 的 行 锚 点 





正常 情况 

^ 匹配 字符 事 起 始 位 置 4 4 / J J V V 

^ 匹配 任意 换行 和 f 

$ 匹配 字符 囊 的 结束 位 置 Y A 4 / / v V 

S 匹配 字符 事 结尾 的 换行 符 OS OE E E á 

5 匹配 任何 换行 符 Y: 

提供 增强 型 行 锚 点 模式 (7112) | J / / / / 

在 增强 型 行 锚 点 模式 中 

^ 匹配 字符 囊 的 起 始 位 置 / ti / NA Vv / 

^ 匹配 任何 换行 符 之 后 的 位 置 4; Vv / / N/A / / 

$ 匹配 字符 事 的 末尾 / / / # NA vv / 

$ 匹配 任何 换行 符 之 前 的 位 置 /i W / W NA Vv / 

\A 总 是 与 普通 的 ^ 一 样 / / / r “4 / 

\Z 总 是 与 普通 的 $ 一 样 /i / J “3 "5 / / 
/ / N/A N/A / / 


\z 总 是 匹配 字符 事 的 末尾 4 


w 

在 这 些 情 况 下 ，Sun 的 Java regex package 支持 Unicode 的 行 终结 符 (7109), 

Ruby 的 S 和 ^ 能 匹配 字符 事 中 的 换行 待 ， 但 是 \RA 和 \Z 则 不 能 。 

Python 的 \Z 只 能 匹配 字符 囊 的 结束 位 置 。 

Ruby 的 \A 与 ^ 不 同 ， 只 能 匹配 字符 囊 的 起 始 位 置 。 

Ruby 4\2 与 $ 不 同 ， 可 以 匹配 字符 事 的 结尾 位 置 ， 或 是 字符 事 结 尾 的 换行 符 之 前 的 位 置 。 
(请 参考 第 91 页 的 版 本 信息 ) 


匹配 的 起 始 位 置 (或 者 是 上 一 次 匹配 的 结束 位 置 ) \G 


NGi 首 先 出 现在 Perl 中 。 在 使 用 /g (951) 的 匹配 中 ，\G 对 迭代 操作 非常 有 用 ， 它 能 够 匹 
配 上 一 次 匹配 结束 的 位 置 。 在 第 一 次 迭代 时 , "Gj 匹配 字符 串 的 开头 ， 与 \a 一样 。 


如 果 匹 配 不 成 功 , \G, 的 匹配 会 重新 指向 字符 串 的 起 始 位 置 。 这 样 ， 如 果 重 复 应 用 某 个 正则 
表达 式 , 例如 进行 Perl 的 's/…/…/g) 操作, 或 者 在 其 他 语言 中 调用 “ 找 出 所 有 匹配 (match 
all)” 函 数 ， 在 匹配 失败 的 同时 , \G, 也 会 指向 字符 串 的 开头 位 置 ， 这 样 以 后 进行 其 他 类 型 
的 匹配 操作 便 不 受 影 响 。 


根据 我 的 观察 ，Perl 的 \G, 有 3 个 值得 注意 而 且 很 有 用 的 方面 : 


。 Ac 的 指向 位 置 是 每 个 目标 字符 串 的 属性 , 而 不 是 设 定 这 些 位 置 的 正则 表达 式 的 属性 。 
也 就 是 说 ， 多 个 正则 表达 式 可 以 依次 对 同一 个 字符 串 进行 匹配 ， 都 使 用 上 一 轮 匹 配 设 
ERJ AG 
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。 Pel 的 正则 运算 符 有 一 个 选项 (Perl 的 /c 修饰 符 了 315)， 它 规定 了 ， 如 果 匹 配 失败 ， 
不 要 重新 设 定 \G!， 而 只 是 保持 之 前 的 值 不 变化 。 如 果 结 合 上 面 那 一 点 ， 就 可 以 从 菜 
个 位 置 开始 尝试 用 多 个 正则 表达 式 进行 匹配 ， 直 到 匹配 能 够 成 功 ， 然 后 在 下 面 的 文本 
中 继续 寻找 匹配 。 


。 ”I\G1 对 应 的 属性 可 以 用 与 正则 表达 式 无 关 的 结构 (Perl 的 pos 函数 313) 来 检查 和 修 
改 。 可 能 有 人 希望 设 定 这 个 位 置 来 “规定 ”从 什么 位 置 开始 寻找 匹配 ， 以 及 只 从 那个 
位 置 开 始 的 匹配 。 同 样 ， 如 果 语 言 支持 本 条 功能 ， 而 没有 直接 提供 上 一 条 功能 ， 我 们 
可 以 用 本 条 功能 来 模拟 。 


下 页 的 补充 内 容 中 有 个 例子 展示 了 这 些 特性 的 用 法 。 除 了 这 些 便捷 之 外 , Perl 的 "GJ 还 存在 
一 个 问题 ， 即 它 必 须 出 现在 正则 表达 式 的 开头 ， 这 样 才能 正常 工作 。 不 过 幸运 的 是 ， 这 似 
平 是 最 自然 的 用 法 。 


之 前 匹配 的 结束 位 置 ， 还 是 当前 匹配 的 开始 位 置 ? 


不 同 的 实现 方式 之 间 存 在 一 个 区 别 ,\G) 匹配 的 到 底 是 “当前 匹配 的 起 始 位 置 ”还 是 “前 一 
次 匹配 的 结束 位 置 "。 在 绝 大 多 数 情况 下 ， 这 两 者 是 等 价 的， 所 以 大 多 数 时 候 这 个 问题 并 不 
要 紧 。 但 也 有 些 不 常见 的 情况 下 ， 它 们 是 有 区 别 的 。215 页 有 个 例子 说 明了 这 种 情况 ， 不 过 
最 容易 的 还 是 用 一 个 专门 的 例子 来 理解 :把 x?; 应 用 到 “abcae’ 。 这 个 表达 式 能 够 在 “abcde” 
匹配 成 功 , 但 其 实 它 没有 匹配 任何 文本 。 在 进行 全 局 查找 -替换 时 ,正则 表达 式 会 重复 应 用 ， 
每 次 处 理 上 一 次 操作 之 后 的 文本 , 除非 传动 装置 会 做 些 特 别 的 处 理 ,“ 上 次 匹配 完成 的 位 置 ” 
总 是 它 开始 的 位 置 。 为 了 避免 无 穷 循环 ， 在 这 种 情况 下 传动 装置 会 强行 前 进 到 下 一 个 字符 
(7148), WX} ‘abcde’ WJ s/x?/!1/g， 结 果 就 是 “!a!b!c!id!e!’。 


传动 装置 这 样 处 理会 带 来 一 个 问题 :“ 上 一 次 匹配 的 终点 ”不 等 于 “本 次 匹配 的 起 点 "。 如 
果 是 这 样 ， 问 题 就 来 了 : \G, 匹 配 哪 个 位 置 呢 ? 在 Perl H, X} ‘abcde’ 应 用 s/\Gx?/!/g 
得 到 “!abcae" ， 所 以 我 们 知道 ， 在 Perl 中 , '\c) 只 匹配 上 一 次 匹配 的 结束 位 置 。 如 果 传 动 
装置 自行 驱动 ，Perl 的 \G 肯定 无 法 匹配 。 


另 一 方面 ,在 其 他 某 些 工 具 软 件 中 使 用 同样 的 查找 -替换 命令 ,会 得 到 “!a!b!c!'d!ie!', 也 
就 是 说 \G 是 在 每 次 匹配 的 起 始 位 置 匹配 成 功 ， 然 后 由 传动 装置 进行 驱动 。 


关于 "\G! 的 匹配 , 也 不 能 完全 相信 文档 , 微软 的 .NET 和 Sun 的 Java 文档 , 在 我 通知 这 两 家 
公司 之 前 ， 都 是 错误 的 (然后 他 们 才 修 正 )。 现 在 的 状态 就 是 ，PHP 和 Ruby 中 的 \G, 指 向 
当前 匹配 的 开头 位 置 ， 而 Perl, java.util.regex 和 .NET 匹配 上 一 次 匹配 的 结束 位 置 。 
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Perl 中 \G 的 高 级 用 法 


下 面 的 程序 对 Shtml 中 的 HTML 代码 进行 简单 的 校 验 ， 确 保 其 中 只 有 少数 几 种 HTML 
结构 (例如 <IMG> 和 <A>， 以 及 &gt;)。 在 Yahoo! 我 用 这 种 方法 确保 用 户 提 交 的 HTML 
符合 某 些 规范 。 
这 段 代码 中 最 重要 的 就 是 Perl 的 m/…/gc 匹配 操作 符 ， 它 会 把 这 个 正则 表达 式 一 次 性 
应 用 到 目标 字符 事 ， 下 一 次 匹配 从 上 一 次 成 功 匹配 之 后 的 文本 开始 ， 如 果 匹 配 失败 ， 
也 ,不 会 重新 设 定 position (7315), 
这 样 ， 我 们 就 能 用 包含 多 个 表达 式 的 “tag team” 来 检查 字 科 事 。 从 理论 上 说 、 它 好 像 
对 所 有 这 些 表达 式 进行 整体 的 和 迭代， 但 是 这 段 程 序 的 执行 单位 不 是 一 次 表达 式 而 是 一 
次 匹配 ， 而 且 能 够 临时 新 增 或 排除 某 些 表达 式 。 

my $need_close_anchor = 0; # 如 果 遇 见 了 <A> 而 没有 对 应 的 </A>， 则 返回 True 


while (not $html =~ m/\G\z/gc) # 在 整个 字符 事 没 有 处 理 完 之 前 
{ 
if ($html =~ m/\G(\w+)/gc) { 
. . WKS) 中 包含 数字 或 单词 可 以 检查 语言 的 规范 性 ... 
elsif {$html =~ m/\G[^<>&\w]+/gc}) { 
# 其 他 非 HTML 代码 一 一 无 关 紧 要 
elsif ($html =~ m/\G<img\s+([4>]+)>/gci) { 
...@@ image 上 tag 一 一 可 以 检查 它 是 否 桂 合 规范 . . . 


elsif (not $need_close_anchor and $html =~ m/\G<A\s+([*>]+)>/gci) { 
.. .包含 超 链接 ， 这 里 可 以 进行 验证 、.. 


$need_close_anchor = 1; # 我 们 现在 需要 的 是 </A> 
elsif ($need_close_anchor and $html =- m{\G</A>}gci) { 
$need_close_anchor = 0; # 需求 已 经 满足 ， 不 再 容许 出 现 
elsif ($html =~ m/\G&(#\d+<\w+) 7/gc) { 
# 容许 出 现 &gt ;和 &#123; 之 于 的 entity 
else (# 此 处 完全 无 法 匹配 ，', 必 人 然 有 错误 。 记 下 当前 位 置 ， 从 HTML 中 提取 若干 字符 ， 报 告 错误 
my $location = pos($html); # 记 下 这 段 HTML 的 起 始 位 置 
my ($badstuff) = $html =~ m/\G(.{1,12})/s; 
die "Unexpected HTML at position S$location: $badstuff\n"; 
} 
} 


# 确保 没有 孤立 的 <A> 
if (Sneed_close_anchor) { 
die "Missing final </A>" 
} 
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单词 分 界 符 : \b、\B、 \<、\> o 


单词 分 界 符 的 作用 与 行 锚 点 一 样 ， 也 是 匹配 字符 串 中 的 某 些 位 置 。 单 词 分 界 符 可 以 分 为 两 
类 ,一 类 中 单词 起 始 位 置 分 界 符 和 结束 位 置 分 界 符 是 相同 的 (通常 是 \< 和 \>)， 另 一 类 则 以 
统一 的 分 界 符 来 匹配 (通常 是 \b)。 两 类 都 提供 了 非 单词 分 界 符 序列 (通常 是 \B)。 表 3-12 
给 出 了 一 些 例子 。 如 果 所 使 用 的 工具 软件 没有 提供 单独 的 起 始 位 置 和 结束 位 置 分 界 符 ， 但 
支持 环视 功能 ， 用 户 也 可 以 用 它 来 模拟 那 两 种 单词 分 界 符 。 在 下 面 的 表格 中 ， 如 果 程 序 本 
身 没有 提供 分 开 的 单词 分 界 符 ， 我 会 列 出 实践 中 的 做 法 。 


单词 分 界 符 通常 可 以 这 样 理解 ， 这 个 位 置 的 一 边 是 “单词 字符 (word character)”， 另 一 边 
则 不 是 。 每 种 工具 软件 对 “单词 字符 ”的 理解 都 不 一 样 ， 对 单词 边界 的 理解 也 是 这 样 。 如 
果 单 词 分 界 符 等 于 \w 当然 好 办 ， 但 很 多 时 候 事实 并 非 如 此 。 例 如 ， 在 PHP 和 java.util. 
regex 中 ，\w 只 能 匹配 ASCI 字符 ， 而 不 是 Unicode 字符 ， 所 以 在 表格 中 我 会 使 用 带 有 
Unicode 单词 属性 \pL (这 是 \p{L)》 的 缩 略 表示 法 灾 121) 的 环视 功能 。 


无 论 单词 分 界 符 怎么 定义 “单词 字符 ”， 单 词 分 界 符 的 测试 通常 只 是 简单 的 字符 相 邻 测试 。 
所 有 的 正则 引擎 都 不 会 对 单词 进行 语意 分 析 : 它们 认为 “NE14AD8" 是 一 个 单词 , 而 “MLT” 
不 是 。 


顺序 环视 (?=…)、(?1!…) ， 逆 序 环视 (?<=…)、(?<!…) 


在 前 一 章 “ 使 用 环视 功能 在 数值 中 插入 逗号 ”(=59) 的 例子 中 ， 我 们 已 经 介绍 过 顺序 环视 
和 逆序 环视 结构 (统称 为 环视 )。 但 关于 它们 还 有 很 重要 的 一 点 没有 介绍 ， 那 就 是 环视 结构 
中 能 够 出 现 什 么 样 的 表达 式 。 大 多 数 实现 方式 都 限制 了 逆序 环视 中 的 表达 式 的 长 度 (但 是 
顺序 环视 则 没有 限制 )。 


Perl 和 Python 的 限制 是 最 严格 的 ， 逆 序 环视 只 能 匹配 固定 长 度 的 文本 。 使 用 (?<!\w) 和 
(?<!this1that) 不 会 出 错 ,但 是 (2<! books?) Fl(2<!*\we:) WAS, 因为 它们 匹配 的 文 
本 的 长 度 是 不 确定 的 。 某 些 情况 下 ，(?<!books?) 可 以 重 写 为 ‘(?<!book) (?<!books) 1, 尽 
管 第 一 眼看 上 去 它 并 不 好 理解 。 


(ii 
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表 3-12: 若干 工具 软件 中 使 用 的 单词 分 界 符 元 字符 













"a | 单词 分 界 符 a 分 界 符 _ 
GNU awk 
aaa 
GNU Emacs woo h 
Java (?<!pL) (?=\pL) = (?<=pL) (?!\pL) \B 因 
SG 
.NET (?<!\w) (?=\w) =- (?<=\w) (?!\w) 

Perl (2<!\w) (?=\w) ++ (2<=\w) (21 \w) 

PHP 

Python 

Ruby 

GNU sed 

Tel 





四 表示 只 能 对 ASCH 中 的 字符 (或 者 是 基于 locale 的 8 位 编码 数据 ) 有 效 ， 即 使 该 流派 支持 
Unicode 也 是 如 此 。 


(请 参考 第 91 页 的 版 本 信息 ) 


更 高 一 层次 的 支持 容许 逆序 环视 中 出 现 不 同 长 度 的 多 选 分 支 ， 所 以 (?<!books?) 可 以 写作 
(?<!book1books) 。PCRE (因此 也 包括 PHP 中 的 preg 套件 ) 支持 此 功能 。 


最 高 层次 的 支持 可 以 匹配 任意 长 度 的 文本 ， 只 是 其 长 度 不 能 为 无 限 。'(?<!books?) ,可 以 直 
接 使 用 ， 但 是 (?<!\w+:) 则 不 行 ， 因 为 \w+ 能 够 匹配 的 长 度 没 有 限制 。Sun 的 Java regex 
package 支持 这 样 。 


就 问题 本 身 来 说 ， 这 三 级 支持 其 实 是 一 样 的 ， 因 为 它们 都 表达 同样 的 意思 ， 尽 管 有 的 表达 
方式 可 能 不 太 好 看 , 而 且 对 匹配 的 长 度 进行 了 严格 的 限制 .中 间 一 级 只 不 过 是 “语法 (syntactic 
sugar)”， 表 达 方 式 更 美观 而 已 。 而 第 四 级 支持 容许 逆序 环视 结构 中 的 子 表达 式 匹配 任意 长 
度 的 文本 ， 甚 至 包括 (?<!^\w+ :),。 微 软 的 .NET 就 支持 这 一 级 ， 它 无 疑 是 最 棒 的 ， 但 是 如 
果 运 用 不 当 ， 也 可 能 带 来 严重 的 效率 问题 (如 果 逆 序 环 视 能 够 匹配 任意 长 度 的 文本 ， 引 擎 
必须 从 字符 串 的 起 始 位 置 开 始 检查 逆序 环视 表达 式 ， 如 果 逆 序 环 视 是 从 长 字符 串 的 尾 端 开 
始 的 ， 这 样 就 会 浪费 许多 工夫 )。 
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注释 和 模式 修饰 符 


Comments and Mode Modifiers 


在 许多 流派 中 ， 使 用 下 面 的 结构 ， 就 能 够 在 正则 表达 式 内 部 ， 切 换 使 用 之 前 介绍 的 正则 表 
达 式 模式 和 匹配 模式 (7110), 


模式 修饰 符 :(?modifier) ， 例 如 (?1) 和 (?-i) 


现在 ， 有 许多 流派 容许 在 正则 表达 式 中 设 定 匹 配 模式 (7110), BRR Oi), EAA 
用 不 区 分 大 小 写 的 匹配 , 而 '(?-i) ,会 停 用 此 功能 。 例如，<B>(?i)very(?-i)</B>, 会 对 中 
IAA ‘very 进行 不 区 分 大 小 写 的 匹配 。 而 两 端的 tag 仍然 必须 为 大 写 。 它 可 以 匹配 
“<B>VERY</B>” 和 “<B>Very</B> "， 但 不 能 匹配 “<b>Vvery</b> '"。 


这 个 例子 在 大 多 数 支 持 ' (?i)) 的 系统 中 都 可 以 运行 ， 例 如 Perl, PHP, java.util.regex, 
Ruby ( 注 15) 和 .NET。 在 Python 和 Tel 中 则 不 行 ， 因 为 它们 不 支持 5(?-i)。 


除 Python 之 外 , 大 多 数 实现 方式 中 ，(?i) ,的 作用 范围 都 只 限于 括号 内 部 (也 就 是 说 , 在 闭 
括号 之 后 就 失效 )。 所 以 , 我 们 可 以 拿 掉 '(?-i),, 将 整个 不 需要 区 分 大 小 写 的 部 分 放 在 一 个 
括号 里 ， 把 '(?i), 放 在 最 前 面 : [<B>(?: (?i)very)</B>), 


模式 修饰 符 中 能 够 出 现 的 不 只 有 “i'。 在 大 多 数 系统 中 ， 我 们 至 少 可 以 使 用 表 3-13 列 出 的 
修饰 符 。 有 的 系统 还 提供 了 更 多 的 选项 。 比 如 PHP 就 提供 了 少数 其 他 选项 (446)，Tecl 
也 是 如 此 (请 参考 文档 )。 


表 3-13: 常见 模式 修饰 符 字母 






不 区 分 大 小 写 的 匹配 模式 (7110) 
宽松 排列 和 注释 模式 (7111) 
点 号 通 配 模式 (7111) 
增强 的 行 锚 点 模式 (7112) 











3 (nn x ade 


模式 作用 范围 : (?modifier:...) ， 例 如 (?i:…) 


如 果 所 使 用 的 系统 支持 模式 修饰 范围 ， 这 样 前 一 节 的 例子 可 以 更 加 简化 。"(?i:…) ,表示 模 
式 修饰 符 的 作用 范围 只 有 在 括号 内 有 效 。 这 样 , '<B>(?: (?i)very)</B>, 就 可 以 化 简 为 


[<B>(?1 *VeIYy)</B>l。 


注 15: 在 Ruby 中 可 以 运行 ， 但 Ruby 的 (?i) 有 个 bug， 即 它 有 时 不 能 正确 处 理 用 1 分隔 的 小 
写 多 选 分 支 (大 写 则 没有 问题 ) 。 
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如 果 支 持 ， 这 种 格式 一 般 可 以 应 用 于 所 有 的 模式 修饰 符 字 母 。Tcl 和 Python 都 支持 Oi) 
格式 ,但 是 不 支持 (?i:…) ,格式 。 


注释 : ( Piece ) Hye 


某 些 流派 支持 用 '(?#…) ,添加 注释 。 实 际 上 ， 如 果 流 派 支持 宽松 排列 和 注释 模式 (7111), 
就 很 少 使 用 这 种 功能 。 不 过 ， 如 果 在 字符 串 文字 中 很 难 插 入 换行 符 ， 用 这 种 格式 加 入 注释 
就 非常 方便 ， 例 如 VB.NET 就 是 如 此 (799, 420), 


文字 文本 范围 : \Q...\E 


\Q…\E 是 由 Perl 引入 的 ， 它 会 消除 其 中 除 \E 之 外 所 有 元 字符 的 特殊 含义 (如 果 没有 \E， 就 
会 一 直 作 用 到 正则 表达 式 末 端 )。 其 中 的 所 有 字符 都 会 被 当成 普通 文字 文本 来 对 待 。 如 果 在 
构建 正则 表达 式 时 包含 变量 ， 此 功能 就 非常 有 用 。 


举例 来 说 ， 为 了 响应 Web RE, 我们 可 能 希望 把 用 户 输入 的 内 容 保 存在 $query 中 ,然后 使 
用 m/$query/i。 但 是 ， 如 果 $query 包含 某 些 字 符 ， 例 如 “Cc:\wWINDOWS\”， 结 果 是 运行 时 
错误 ， 因 为 这 不 是 一 个 合法 的 正则 表达 式 (最 后 有 一 个 单独 的 反 斜 线 )。 


\Q…ABI 可 以 解决 这 个 问题 如果 在 Perl 中 使 用 m/\Qsquery\E/i, 则 $query 就 从 ‘C:\WIN- 
DOWS\” 变 成 "cC\:\\WINDOWS\\， 结 果 能 找到 用 户 期 望 的 “c:\wINDOWS\ "。 


但 是 在 面向 对 象 和 程序 式 处 理 (795) 中 ， 这 个 特性 的 用 处 要 打折 扣 。 在 构建 需要 用 在 正 
则 表达 式 中 的 字符 串 时 ， 有 很 方便 的 函数 对 这 个 值 “ 上 保险 "， 以 便 用 在 正则 表达 式 中 。 例 
如 ,在 VB 中 ,我 们 可 以 使 用 Regex.Escape( 了 432);PHP 提供 了 preg_quote MH (7470), 
Java 有 quote 方法 (9395), 


就 我 所 知 , 支持 \Q…\B 的 引擎 只 有 java.util. regex 和 PCRE (也 包括 PHP 的 preg 套件 )。 
请 注意 ， 我 刚刚 提 到 ， 这 个 功能 是 在 Perl 中 引入 的 (而 且 我 给 出 了 Perl 的 例子 )， 你 可 能 觉 
得 很 奇怪 ,为 什么 刚刚 没有 提 到 Perl, Perl 支持 正则 文字 中 的 \Q…\E (也 就 是 直接 出 现在 程 
序 中 的 正则 表达 式 )， 但 是 不 能 在 可 能 使 用 插值 的 内 容 和 变量 上 使 用 。 细 节 问 题 请 参考 第 7 
章 (7290), 


在 低 于 1.6.0 的 Java 中 ，java.util.regex 对 字符 组 中 的 八 Q…\Ei KHER HRN, HA 
议 使 用 。 


| 
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分 组 ， 捕 获 ， 条 件 判断 和 控制 


Grouping, Capturing, Conditionals, and Control 


捕获 /分 组 括号 : (.…) 和 \1，\2，… 


普通 的 无 特殊 意义 的 括号 通常 有 两 种 功能 : 分 组 和 捕获 。 普 通 括 号 常见 的 形式 是 '(…),, 但 
有 的 流派 中 使 用 (…\),， 例 如 GNU Emacs, sed, vi 和 grep, 


如 41、43 和 57 页 的 图 所 示 ， 捕 获 型 括号 的 编号 是 按照 开 括 号 出 现 的 次 序 ， 从 左 到 右 计 算 
的 。 如 果 提 供 了 反 向 引用 ， 则 这 些 括号 内 的 子 表达 式 匹 配 的 文本 可 以 在 表达 式 的 后 面部 分 
用 N41), \2, 来 引用 。 


括号 的 常用 功能 之 一 是 从 字符 串 中 提取 数据 。 括 号 中 的 子 表达 式 匹配 的 文本 (也 可 以 称 为 
“括号 匹配 文本 (the text matched by the parentheses)”) 在 不 同 的 程序 中 可 以 通过 不 同 的 方 
式 来 引用 ， 例 如 Perl 的 $1 和 $2 (常见 的 错误 是 在 正则 表达 式 之 外 使 用 仆 1,， 这 种 形式 只 在 
sed 和 vi 中 能 用 )。 下 一 页 的 表 3-14 说 明了 各 种 程序 中 ， 匹 配 完成 之 后 访问 文本 的 方法 。 它 
还 说 明了 访问 整个 表达 式 匹 配 的 文本 ， 或 者 某 一 组 捕获 型 括号 所 匹配 文本 的 做 法 。 


仅 用 于 分 组 的 插 号 : (?:…) 


仅 用 于 分 组 的 括号 '(?:…) 不 能 用 来 提取 文本 ， 而 只 能 用 来 规定 多 选 结构 或 者 量词 的 作用 
对 象 。 它 们 不 会 按照 51、$2 之 类 编号 。 在 '(11one) (?: andlor) (21two), 匹 配 之 后 ，$1 包 
ZTP RH ‘one’ ,$2 包含 '2' 或 者 'two' 。 只 用 于 分 组 的 括号 也 叫 非 捕获 型 括号 (non-capturing 


parentheses ) 。 


非 捕获 型 括号 的 价值 体现 在 好 几 个 方面 。 它 们 能 够 把 复杂 的 表达 式 变 得 清晰 ， 这 样 读 者 不 
会 担心 在 其 他 地 方 用 到 $1 会 产生 混乱 。 而 且 它们 还 有 助 于 提高 效率 。 如 果 正 则 引擎 不 需要 
记录 捕获 型 括号 匹配 的 内 容 , 速度 会 更 快 , 所 用 的 内 存 也 更 少 (第 6 章 详细 讲解 效率 问题 ) 。 


非 捕获 型 括号 的 另 一 个 用 途 是 利用 多 个 成 分 构建 正则 表达 式 。 在 第 76 页 的 例子 中 ，$Host- 
nameRegex 保存 的 是 用 来 匹配 主机 名 的 正则 表达 式 。 如 果 使 用 它 来 提取 主机 名 两 端的 空白 ， 
在 Perl 中 是 m/ (\s*) SHostnameRegex(\s*)/。 然 后 S1 和 $2 分 别 保存 开头 和 结尾 的 空白 ， 
但 结尾 的 空白 其 实 是 保存 在 $4 中 的 ， 因 为 $HostnameRegex 包含 两 组 捕获 型 括号 。 


$HostnameRegex = qr/[-a-z0-9]+(\. [-a-z0-9]+)*\. (comledu|info)/i:; 
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表 3-14: 若干 工具 软件 及 其 中 访问 捕获 文本 的 方法 


= > ` < 


lenn TR GT S SS Sa a 人 

GNU egrep N/A N/A 

GNU Emacs (match_string 0) (match-string 1) 
(replacement 字符 事 中 为 \&) (replacement 字符 事 中 为 \1) 
Substr ($text, RSTART, RLENGTH 

MySQL N/A N/A 

Perl 一 41 $1 

PHP 7450 Smatches [1] 

Python 797 MatchObj . group (1) 

Ruby $1 


GNU sed \ RRA regex replacenent F) 

Java w95 MatcherObj .group (1) 

Tel 通过 regexp 命令 设置 为 用 户 选择 的 变量 

VB.NET 7°96 MatchObj .Groups (1) 

C# MatchObj .Groups [1] 
Cees 


vi \1 





(请 参考 第 91 页 的 版 本 信息 ) 
如 果 这 两 组 括号 是 非 捕获 型 的 ， 我 们 就 可 以 按照 直观 的 方式 使 用 SHostnameRegex。 另 一 种 
办 法 是 使 用 命名 捕获 ， 尽 管 Perl 没有 提供 这 种 功能 ， 我 们 还 是 会 介绍 它 。 


命名 捕获 : (?<Name>...) 


Python 和 PHP 的 preg 引擎 ， 以 及 .NET 引擎 ， 都 能 够 为 捕获 内 容 命名 。Python 和 PHP 使 用 
的 语法 是 (?P<name>…),， 而 .NET 使 用 !(?<name>…),。 我 更 喜欢 .NET 的 语法 。 下 面 是 一 
个 .NET 的 例子 : 


\p(?<Area>\d\d\d\)-(?<Exch>\d\d\d)-(?<Num>\d\d\d\d) \b; 


\b(?P<Area>\d\d\d\)-(?P<Exch>\d\d\d)-(?P<Num>\d\d\d\d) \b 


这 个 表达 式 会 用 美国 电话 号 码 的 各 个 部 分 “填充 ”Area、Exch 和 Num 命名 的 内 容 。 然 后 我 
们 可 以 通过 名 称 来 访问 各 个 括号 捕获 的 内 容 ， 例 如 在 VB.NET 和 大 多 数 .NET 语言 中 ， 可 以 
使 用 RegexObj.Groups ("Area")， 在 C# 中 使 用 RegexObj .Groups ["area"] ， 在 Python 中 
使 用 RegexObj.group("Area"), 在 PHP 中 使 用 $matches["Area"] 。 这 样 程序 看 起 来 更 清 
Hi. 
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如 果 要 在 正则 表达 式 内 部 引用 捕获 的 文本 , .NET {EH '\k<Area>), Python 和 PHP 中 使 用 


[(?3P=Area) 


在 Pyhon 和 .NET (但 不 包括 PHP) 中 ， 可 以 在 同一 个 表达 式 中 多 次 使 用 同样 的 命名 。 例 如 
美国 电话 号 码 的 区 号 部 分 的 形式 是 “ (###) “或 者 “###- ,为 了 匹配 , 我 们 可 以 使 用 (用 .NET 
语法 ):“…(?:\((?<Area>\d\d\d)\}1{?<Area>\d\d\d)-)…J。 无 论 哪 一 组 匹配 成 功 ， 都 
会 把 3 位 的 区 号 保存 到 4rea 中 。 


固化 分 组 : (?>...) 


如 果 详 细 了 解 正则 引擎 的 匹配 原理 (169)， 就 很 容易 理解 固化 分 组 。 在 这 里 只 说 一 点 ， 
就 是 一 旦 括号 内 的 子 表达 式 匹 配 之 后 ， 匹 配 的 内 容 就 固定 下 来 (固化 (atomic) 下 来 无 法 改 
E), 在 接 下 来 的 匹配 过 程 中 不 会 变化 ， 除 非 整 个 固化 分 组 的 括号 都 被 弃 用 ， 在 外 部 回溯 中 
重新 应 用 。 下 面 这 个 简单 的 例子 会 帮助 我 们 理解 这 种 匹配 的 “固化 ”性 质 。 


Get 能 够 匹配 “i1Hola!"， 但 是 如 果 '.*, 在 固化 分 组 ";(?>.*) !; 中 就 无 法 匹配 。 在 这 两 
种 情况 下 ，. *, 都 会 首先 匹配 尽 可 能 多 的 内 容 (' iHola;'), 但 是 之 后 的 "1 无 法 匹配 , 会 强 
迫 “释放 之 前 匹配 的 某 些 内 容 (最 后 的 “!')。 如 果 使 用 了 固化 分 组 ,就 无 法 实现 ， 因 为 
“….* 在 固化 分 组 中 ， 它 永远 也 不 会 “交还 ”已 经 匹配 的 任何 内 容 。 


尽管 这 个 例子 没有 什么 实际 价值 ， 固 化 分 组 还 是 有 重要 的 用 途 。 尤 其 是 ， 它 能 够 提高 匹配 
的 效率 (171)， 而 且 能 够 对 什么 能 匹配 ， 什 么 不 能 匹配 进行 准确 地 控制 (269)。 


ZRH. /.… Jee. 


多 选 结构 能 够 在 同一 位 置 测试 多 个 子 表达 式 。 每 个 子 表达 式 称 为 一 个 多 选 分 支 (alternative)。 
符号 0 有 很 多 称呼 ， 不 过 “或 (or)” 和 “ 坚 线 (bar)” 最 为 常见 。 有 的 流派 使 用 \ 1。 


多 选 结构 的 优先 级 很 低 ， 所 以 ‘this andlor that, 的 匹配 等 价 于 ‘(this and) | (or chac) 
而 不 是 this (andlor) that), SR andlor 看 上 去 是 一 个 单位 。 


大 多 数 流派 都 容许 出 现 空 的 多 选 分 支 ， 例 如 (this1that 1 )j。 空 表达 式 在 任何 情况 下 都 能 
匹配 ， 所 以 这 个 例子 等 于 " (this1that)?l ( 注 16), 


注 16: 认真 考究 起 来 ，(thislthat1)) 在 还 辑 上 等 价 于 ((?:thislthat)?)1。 它 与 语句 
(this1lthat)?1 的 区 别 在 于 括号 中 是 否 包含 “没有 任何 内 容 的 匹配 ", 这 个 区 别 很 细 向 ， 
但 是 如 果 工 具 软 件 对 匹配 是 否 和 大 与 最 终 匹 配 会 区 别 对 待 ， 就 很 重要 。 


iil 
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POSIX 标准 禁止 出 现 空 多 选 分 支 ，lex 和 大 多 数 版 本 的 awk 也 是 如 此 。 我 认为 ,考虑 到 空 多 
选 分 支 的 简便 和 清晰 ， 保 留 它 不 无 益处 。Larry Wall 告诉 我 :“ 我 认为 ,保留 它 就 好 像 在 数 
学 中 保留 0 一 样 有 意义 ”。 


条 件 判 断 : (?if then lelse) 


这 个 结构 容许 用 户 在 正则 表达 式 中 使 用 iffthen/else 判断 。i 部 分 是 特殊 的 条 件 表达 式 (a 
special kind of conditional expression ) ， 下 文 马上 会 有 介绍 。then 和 else 部 分 是 普通 的 子 表达 
式 。 如 果 了 部 分 测试 为 真 ， 则 尝试 then 的 表达 式 ， 否 则 尝试 else 部 分 (else 部 分 也 可 以 不 
出 现 ， 果 真如 此 的 话 ， 可 以 省 略 “! )。 


小 的 种 类 因 流 派 的 不 同 而 不 同 , 但 是 大 多 数 实 现 方式 都 容许 在 其 中 引用 捕获 的 子 表达 式 和 环 
视 结 构 。 


测试 对 捕获 型 括号 的 特殊 引用 。 如 果 if 部 分 是 一 个 括号 中 的 编号 ， 而 对 应 编号 的 捕获 型 括 
号 参与 了 匹配 ， 其 值 为 “tue" 。 下 面 的 例子 匹配 <IMG> tag， 无 论 是 是 单独 出 现 的 ， 或 者 是 
在 <A>…</A> 中 出 现 的。 代码 采用 带 注释 的 宽松 排列 格式 ， 条 件 判 断 结构 (这 里 的 没有 else 
部 分 ) 以 粗 体 标注 。 

( <A\s+[*>]+> \s* )? # 匹配 开头 的 <A> tag， 如 果 存 在 的 话 


<IMG\s+[^>]+> # 匹配 <IMG> tag 
(?(1)\s*</A>) # 匹配 结 是 的 </A>， 如 果 之 前 匹配 过 <A> 


“(? (1)…) ,测试 中 的 (1) 会 测试 第 一 组 捕获 型 括号 是 否 参与 了 匹配 。“ 参 与 匹配 ”不 等 于 “ 实 
际 匹 配 了 文本 ”"， 来 看 个 简单 的 例子 : 


下 面 两 种 办 法 都 可 以 匹配 可 能 包含 在 “<…>” 中 的 单词 : “(<)?\w+(?(1)>) ,可 以 ， 
(<?) w+(?(1L) >), 则 不 行 。 它们 之 间 唯 一 的 区 别 在 于 第 一 个 问号 出 现 的 位 置 。 在 第 一 种 ( 正 
确 的 ) 办 法 中 ， 问 号 作用 于 整个 捕获 型 括号 ， 所 以 括号 (以 及 包含 的 内 容 ) 不 是 必须 匹配 
的 。 在 第 二 个 例子 中 ， 捕 获 型 括号 不 是 可 选 的 一 一 只 有 其 中 的 '</ 才 是 ， 所 以 无 论 “<' 
否 匹配 了 文本 ， 它 都 “参与 匹配 " 。 也 就 是 说 ，(?(1)…) 中 的 六 部 分 总 是 “tme”。 


如 果 能 够 使 用 命名 捕获 (138)， 就 可 以 在 括号 中 使 用 命名 ， 而 不 是 编号 。 


用 环视 做 测试 。 完 整 的 环视 结构 ， 例 如 和 (?=…) |; 和"(?<=…):， 可 以 用 于 六 测试 。 如 果 环 视 
能 够 匹配 ， 它 返回 “true”， 执 行 then 部 分 。 否 则 会 执行 else 部 分 。 来 看 个 专门 设计 的 例子 
(?.(2<=NUM:) \d+I\w+)1, 它 会 在 ‘NUM: | 之 后 的 位 置 尝试 匹配 d+, 但 是 在 其 他 位 置 尝试 





www.TopSage.com 


常用 的 元 字符 和 特性 141 


使 用 "w+;。 环 视 条 件 判断 以 下 夯 线 标注 。 


条 件 判断 的 其 他 测试 。Perl 提供 了 一 种 复杂 的 条 件 判断 结构 ， 容 许 在 测试 中 使 用 任意 Perl 
代码 。 返 回 值 作为 测试 的 值 ， 根 据 它 来 判断 then 或 者 else 部 分 是 否 应 该 尝试 。 详 细 信息 请 
参考 第 7 章 的 第 327 页 。 


匹配 优先 量词 : *, +, ?, (num, num} 


量词 〈 星 号 、 加 号 、 问 号 ， 以 及 区 间 元 字符 ， 它 们 能 够 限制 作用 对 象 的 匹配 次 数 ) 已 经 有 
过 详细 介绍 。 不 过 ， 需 要 注意 的 是 ， 在 某 些 工具 中 使 用 \+: 和 人 ?来 取代 + 和 ?,。 同 样 ， 
在 某 些 更 老 的 工具 中 ， 量 词 不 能 限定 反 向 引用 ， 也 不 能 限定 括号 。 


区 间 : (min, max} 或 者 \ (min, max \} 


区 间 可 以 被 认为 是 “计数 量词 (counting quantifier)”"， 因 为 用 户 可 以 通过 区 间 指 定 匹 配 成 功 
所 必须 的 下 限 和 上 限 。 如 果 只 设置 了 一 个 数值 (例如 '[a-z] {3), 或 者 '[a-z]\{3\) 1， 依 流 
派 决定 )， 匹 配 的 次 数 就 等 于 这 个 值 。 它 等 同 于 '[a-z] [a-z] a-z] (尽管 两 者 的 效率 可 能 
有 所 不 同 251)。 


需要 注意 的 是 ， 不 要 认为 XO OREBE “x 不 能 出 现 "。Xx{0,0) 没有 意义 ， 因 为 它 的 
意思 是 “不 需要 匹配 x,， 也 就 是 说 实际 上 根本 不 需要 进行 任何 尝试 "。 它 基本 等 于 X00) 
不 存在 一 一 如 果 存 在 X， 它 也 可 以 被 正则 表达 式 之 后 出 现 的 某 些 元 素 匹 配 ， 所 以 这 种 做 法 
是 行 不 通 的 〈 注 17)。 要 实现 “不 容许 存在 ”， 请 使 用 否定 性 环视 。 


忽略 优先 量词 : *?、+?、??、{num,num}? 


有 的 工具 提供 了 不 那么 美观 的 量词 ，*?、+?、?? 和 {min, mar}?。 这 些 是 忽略 优先 的 量词 。 
量词 在 正常 情况 下 都 是 “匹配 优先 〈greedy)” 的 ， 匹 配 尽 可 能 多 的 内 容 。 相 反 ， 这 些 忽略 
优先 的 量词 会 匹配 尽 可 能 少 的 内 容 ， 只 需要 满足 下 限 ， 匹 配 就 能 成 功 。 其 中 的 差异 有 深远 
的 影响 ， 详 细 的 介绍 在 下 一 章 (7159), 


注 17: 从 理论 上 说 ， 我 关于 (0,0} 的 论述 是 没 错 的 。 但 是 ， 实 际 的 情况 灵 糟 炬 ， 因 为 它 会 产生 
随机 的 结果 ! 在 许多 程序 (包括 GNU awk, GNU grep 以 及 老 版 本 的 Perl) 中 ，{0,0} 就 
等 价 于 *, 而 在 其 他 许多 程序 (包括 我 曾 见 过 的 大 多 数 版 本 的 sed, 以 及 某 些 版 本 的 grep), 
中 等 同 ?。 这 真 叫 人 抓 狂 ! 
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占有 优先 量词 : *+, ++, 2+, {num, num}+ 


这 些 量词 目前 只 有 java.util.regex 和 PCRE (LIR PHP) 提供 , 但 是 很 可 能 会 流行 开 来 ， 
占有 优先 量词 类 似 普 通 的 匹配 优先 量词 ， 不 过 他 们 一 旦 匹配 某 些 内 容 ， 就 不 会 “交还 ”。 它 
们 类 似 固化 分 组 ， 如 果 理 解 了 基本 的 匹配 过 程 ， 就 很 容易 理解 占有 优先 量词 。 


从 某 种 意义 上 来 说 ， 占 有 优先 的 量词 只 是 些 表面 工夫 ， 因 为 它们 可 以 用 固化 分 组 来 模拟 。 
.++ 1 与 (?>.+)! 的 结果 完全 一 样 , 只 是 足够 智能 的 实现 方式 能 对 占有 优先 量词 进行 更 多 的 
优化 。 


高 级 话题 引导 


Guide to the Advanced Chapters 


我 们 已 经 熟悉 了 元 字符 、 流 派 、 语 法 包装 (syntactic packaging) 之 类 的 概念 ， 现 在 应 该 详 
细 介 绍 本 书 开头 提 到 的 第 三 点 了 ， 也 就 是 工具 软件 的 正则 引擎 如 何 把 一 个 正则 表达 式 应 用 
到 文本 当中 。 在 第 4 章 “正则 表达 式 的 匹配 原理 ”中 ， 我 们 会 看 到 匹配 引擎 的 实现 方式 如 
何 影响 匹配 的 完成 、 匹 配 的 内 容 ， 以 及 匹配 的 时 间 。 我 们 会 详细 考察 这 一 切 。 学 习 完 这 些 
知识 之 后 ， 你 在 调 校 复杂 的 正则 表达 式 时 会 更 有 信心 。 第 5 章 “ 实 用 正则 表达 式 技巧 ”会 
用 更 复杂 的 例子 巩固 这 些 知识 。 


接 下 来 是 第 6 章 “ 打 造 高 效率 的 正则 表达 式 "。 了 解 了 引擎 的 基本 工作 原理 之 后 ， 你 会 学 习 
到 如 何 充分 利用 这 些 知识 。 第 6 章 考 察 了 正则 表达 式 的 陷阱 一 一 它们 通常 会 导致 意外 的 结 
果 ， 然 后 教会 读者 真正 运用 书本 上 的 知识 。 


第 4、5、6 三 章 是 本 书 的 核心 。 头 三 章 只 是 为 它们 做 铺垫 ， 而 且 最 后 针对 工具 软件 的 章节 
以 它们 为 基础 。 核 心 章节 不 容易 阅读 ， 但 是 我 尽力 避免 使 用 数学 、 代 数 和 其 他 我 们 不 熟悉 
的 概念 。 但 是 ， 就 像 任 何 高 深 的 学 问 一 样 ， 汗 心 研 究 细节 需要 花费 相当 的 工夫 。 
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表达 式 的 匹配 原理 


The Mechanics of Expression Processing 


前 一 章 在 开头 类 比 了 正则 表达 式 与 汽车 ， 余 下 的 部 分 介绍 了 正则 表达 式 的 功能 、 特 点 以 及 
其 他 相关 信息 。 本 章 仍 会 使 用 这 个 类 比 来 说 明 重 要 的 正则 引擎 及 其 工作 原理 。 


为 什么 需要 了 解 这 些 原理 呢 ? 读者 将 会 了 解 到 ， 正 则 引擎 分 为 很 多 种 ， 最 常用 的 引擎 类 型 
一 Perl、Tel、Python、.Net、Ruby、PHP， 我 见 过 的 所 有 的 Java 正则 包 ， 以 及 其 他 语言 使 
用 的 工作 原理 ， 基 于 此 原理 ， 构 建 正则 表达 式 的 方式 决定 了 某 个 正则 表达 式 能 否 匹配 一 个 
MEFR, EMRE: RAEN SRO, ORI ARERR, 
请 阅读 本 章 。 a a 









发 动 引擎 


Start Your Engines! 


要 < 于 i 
现在 我 们 来 看 看 ， 引 擎 的 3 NMOS, ATE, AR 


His Dn Denn -AE A Allee viscera. A 
机 会 完成 余下 的 事情 。 它 的 主要 任务 就 是 驱动 车 轮 ， hid 没 必要 关心 它 是 如 何 工作 的 。 
是 这 样 吗 ? NA 
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两 类 引擎 


Two Kinds of Engines 


设想 一 下 驾驶 电动 汽车 的 情形 叶 电 动 汽 车 已 经 诞生 很 和 了， 但 它们 不 像 汽 油 发 动机 驱动 的 
汽车 那样 普及 ， 因 为 电动 汽车 还 不 够 成 熟 。 如 果 你 有 辆 电动 汽车 ， 请 记 住 别 给 它 加 油 。 如 
果 你 的 汽车 采用 汽油 发 动机 ,请 务必 远离 烟火 。 电 动机 目 禾 总 苞 “ 能 够 运行 "， 汽 油 机 则 需 
要 多 加 保养 。 更 换 火 花 塞 ,/ 空气 过 滤器 ， 或 者 换 用 不 同 品牌 的 汽油 ， 有 可 能 大 大 提升 发 动 
机 的 效率 。 当 然 ， 也 可 能 降低 汽油 机 的 性 能 ,或 者 导致 发 动机 罢工 。 不 同 引擎 的 工作 原理 
也 有 不 同 ， 但 目的 都 是 驱动 车 轮 ; 不 过 所 如 果 你 想 开 车 去 某 个 地 方 ， 还 得 把 好 方向 盘 ， 当 
然 ， 这 是 题 外 话 。 


新 的 标准 


New Standards 


让 我 们 看 看 添加 一 条 新 规范 ， 加 利 福 尼 亚 州 的 尾气 排放 标准 〈 注 1) 。 一 些 发 动机 达到 了 加 
州 的 严格 排放 标准 ， 一 些 则 没有 。 这 两 类 发 动机 并 没有 本 质 的 不 同 ， 只 是 按 标准 划分 为 两 
类 。 这 些 标准 规定 了 发 动机 尾气 排放 的 成 分 ， 而 并 没有 规定 发 动机 应 该 怎样 做 才能 达标 。 
所 以 ， 现 在 我 们 可 以 把 之 前 的 两 分 法 变 为 四 分 法 : 符合 标准 的 电动 机 、 不 符合 标准 的 电动 
机 、 符 合 标准 的 汽油 机 和 不 符合 标准 的 汽油 机 。 


回 到 原来 的 话题 ， 我 敢 打赌 ， 电 动机 不 需要 做 多 少 改动 就 可 以 达标 一 一 标准 只 是 “规定 ” 
尾气 的 成 分 ， 而 电动 机 几乎 没有 尾气 。 相 反 ， 汽 油 机 要 达标 可 能 就 需要 大 的 修改 和 更 新 。 
使 用 汽油 发 动机 的 驾驶 员 尤 其 需要 注意 汽油 的 型 号 一 一 如 果 加 错 了 油 ， 他 们 就 车 上 大 麻烦 
T. 


标准 的 作用 


更 严格 的 排放 标准 是 个 好 玩意 儿 ， 但 驾驶 员 也 需要 考虑 更 多 ， 同 时 更 加 小 心 〈 至 少 对 汽油 
车 来 说 如 此 )。 不 过 坦白 说 ， 新 标准 对 大 多 数 人 没有 什么 影响 ， 因 为 其 他 州 不 会 施行 加 州 的 
标准 。 

所 以 你 知道 ， 四 种 类 型 的 发 动机 其 实 可 以 分 为 三 类 : 两 类 是 汽油 机 ， 一 类 是 电动 机 。 虽 然 
它们 都 是 驱动 车 轮 的 ， 但 你 明白 了 其 中 的 差异 。 你 不 知道 的 是 ， 这 堆 复 杂 的 玩意 与 正则 表 
达 式 有 什么 关系 ! 其 实 这 里 面 的 关系 远 比 你 能 想象 的 要 复杂 。 


注 1: 加 州 对 汽车 尾气 排放 的 限制 非常 严格 。 因 此 ， 美 国 市 场 上 的 不 少 汽车 都 标明 “达到 加 州 标 
准 ” 或 “未 达到 加 州 标准 "。 
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正则 引擎 的 分 类 


Regex Engine Types 


正则 引擎 主要 可 以 分 为 基本 不 同 的 两 大 类 : 一 种 是 DFA (相当 于 之 前 说 的 电动 机 ) ， 另 一 种 
是 NFA (相当 于 前 面 的 汽油 机 )。 我 们 很 快 就 会 知道 DFA 和 NFA 的 具体 含义 ， 但 是 现在 读 
者 只 需要 知道 这 两 个 名 字 ， 就 像 “Bil” 和 “Ted",， “汽油 机 ”和 “电动 机 ”一 样 。 

DFA 和 NFA 都 有 很 长 的 历史 ， 不 过 ， 正 如 汽油 机 一 样 ，NFA 的 历史 更 长 一 些 。 使 用 NFA 
的 工具 包括 .NET、PHP、Ruby、Perl、Python、GNU Emacs, ed, sec, vi, grep 的 多 数 版 本 ， 
甚至 还 有 某 些 版 本 的 egrep 和 awk。 而 采用 DFA 的 工具 主要 有 egrep, awk, lex Fil flex, th 
有 些 系统 采用 了 混合 引擎 ， 它 们 会 根据 任务 的 不 同 选 择 合适 的 引擎 (甚至 对 同一 表达 式 中 
的 不 同 部 分 采用 不 同 的 引擎 ， 以 求 得 功能 与 速度 之 间 的 最 佳 平衡 ) 。 表 4-1 列 出 了 少量 常用 
的 工具 及 其 大 多 数 版 本 使 用 的 引擎 。 如 果 你 最 喜欢 的 工具 没有 名 列 其 中 ， 可 以 参考 下 一 页 
的 “测试 引擎 的 类 型 ”来 找到 答案 。 


表 4-1: 部 分 程序 及 其 所 使 用 的 正则 引擎 





DFA awk (大 多 TA +). egrep (大 多 数 版 本 ) 、 lex: MySQL. gamer 
传统 型 NFA GNU Emacs, Java, grep (大 多 数 版 本 ) , less, more, .NET 语言 . PCRE library, 

Perl, PHP (所 有 三 套 正 则 库 ) Python, Ruby, sed (大 多 数 版 本 ) vi 
POSIX NFA mawk, Mortice Kern Systems’ utilities, GNU Emacs (明确 指定 时 使 用 ) 
DFA/NFA 混合 | GNU awk, GNU grep/egrep, Tcl 


第 3 章 已 经 讲 过 ，NFA 和 DFA 都 发 展 了 二 十 多 年 ,产生 了 许多 不 必要 的 变 体 ， 结 果 ， 现 在 
的 情况 比较 复杂 。POSIX 标准 的 出 台 ， 就 是 为 了 规范 这 种 现象 ，POSIX 标准 不 但 清楚 地 规 
定 了 前 一 章 中 提 到 的 引擎 应 该 支持 的 元 字符 和 特性 ， 还 明确 规定 了 使 用 者 期 望 由 表达 式 获 
得 的 准确 结果 。 除 开 表面 细节 不 谈 ，DFA (也 就 是 电动 机 ) 显然 已 经 符合 新 的 标准 ， 但 是 
NFA 风格 的 结果 却 与 此 不 一 ， 所 以 NFA 需要 修改 才能 符合 标准 。 这 样 一 来 ,正则 引擎 可 以 
粗略 地 分 为 3 类 : 


。 DFA (符合 或 不 符合 POSIX 标准 的 都 属 此 类 )。 
。 ”传统 型 NFA。 


e POSIX NFA, 


这 里 提 到 的 POSIX 是 匹配 意义 上 的 ， 也 就 是 说 ，POSIX 标准 规定 的 某 个 正则 表达 式 的 应 有 
行为 (本 章 稍 后 部 分 将 讨论 ), 而 不 是 指 POSIX 标准 引入 的 匹配 特性 。 许多 程序 支持 这 些 特 
性 ， 但 结果 与 POSIX 规范 不 完全 一 致 。 


www.TopSage.com 


146 第 4 章 : 表达 式 的 匹配 原理 


老式 (功能 极 少 的 ) 程序 ， 比 如 egrep, awk, lex 之 类 ， 一 般 都 是 使 用 DFA 引擎 (电动 机 )， 
所 以 ， 新 的 标准 只 是 肯定 了 既 有 的 情况 ， 而 没有 大 的 改变 。 但 是 也 存在 一 些 汽油 机 版 本 的 
此 类 程序 ,如 果 它 们 需要 达到 POSIX 标准 ,就 需要 做 些 修改 。 通 过 了 加 州 排放 标 准 测 试 (POSIX 
NFA) 的 汽油 机 能 够 产生 符合 标准 的 结果 ， 但 是 这 些 必要 的 修改 会 增加 保养 的 难度 。 以 前 ， 
错位 的 火花 塞 也 能 应 付 着 使 用 ， 但 现在 根本 就 点 不 着 火 。 以 前 还 能 “凑合 ”的 汽油 ， 现 在 
会 弄 得 发 动机 环 古 乱 响 。 不 过 ， 一 旦 掌握 其 中 的 门道 ， 发 动机 就 能 平稳 安静 地 运转 了 。 


NARIMA 


From the Department of Redundancy Department 


现在 ， 我 请 读者 回 过 头 去 ， 重 新 思考 关于 引擎 的 故事 。 其 中 的 每 句 话 都 涉及 某 些 与 正则 表 
达 式 相关 的 事实 。 读 第 二 遍 会 引起 许多 思考 。 尤 其 是 , 为 什么 说 电动 机 (DFA 引擎 ) 只 是 “能 
够 运行 "。 什 么 影响 了 汽油 机 (NFA) ? 使 用 NFA 引擎 时 ， 应 该 如 何 调整 才能 获得 期 望 的 结 
R? 通过 (排放 ) 测试 的 POSIX DFA 有 什么 特别 之 处 ? 现实 中 “熄火 的 引擎 ”又 是 什么 ? 


测试 引擎 的 类 型 


Testing the Engine Type 


工具 所 采用 的 引擎 的 类 型 ， 决 定 了 引擎 能 够 支持 的 特性 以 及 这 些 特性 的 用 途 。 所 以 ， 通 常 
情况 下 ， 我 们 只 需要 几 个 测试 用 的 表达 式 ， 就 能 判断 出 程序 所 使 用 的 引擎 类 型 (EE, An 
果 你 不 能 分 辨 引擎 的 类 型 ， 这 种 分 类 就 没有 意义 ) 。 现 在 ， 我 并 不 期 望 读者 理解 下 面 的 这 些 
测试 原理 ,我 只 是 提供 一 些 测试 表达 式 , 即 使 读者 最 喜欢 使 用 的 软件 没有 出 现在 表 4-1 之 内 ， 
也 可 以 判断 出 引擎 的 类 型 ， 继 续 阅 读本 章 的 其 他 内 容 。 


是 否 传统 型 NFA 


传统 型 NFA 是 使 用 最 广泛 的 引擎 ， 而 且 它 很 容易 识别 。 首 先 ， 看 看 忽略 优先 量词 (7141) 
是 否 得 到 支持 ?如 果 是 ， 基 本 就 能 确定 这 是 传统 型 NFA。 我 们 将 要 看 到 ， 忽 略 优先 量词 是 
DFA 不 支持 的 , 在 POSIX NFA 中 也 没有 意义 。 为 了 确认 这 一 点 ， 只 需要 简单 地 用 正则 表达 
式 mftalnfanot1 来 匹配 字符 串 ‘nfa'not', WERA ‘nfa’ MET, 这 就 是 传统 型 NFA, 
如 果 整 个 “nfa not ”都 能 匹配 ， 则 此 引擎 要 么 是 POSIX NFA, BZ DFA, 


if 
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DFA 还 是 POSIX NFA 


某 些 情况 下 ，DFA 与 POSIX NFA 的 区 别 是 很 明显 的 。DFA 不 支持 捕获 型 括号 (capturing 
parentheses) 和 回溯 (backreferences)， 这 一 点 有 助 于 判断 ， 不 过 ， 也 存在 同时 使 用 两 种 引 
擎 的 混合 系统 ， 在 这 种 系统 中 ， 如 果 没 有 使 用 捕获 型 括号 ， 就 会 使 用 DPA, 


echo -XX=========================2=~=====zzz==2==== | egrep 'X(.+)+xX' 


如 果 执 行 需 要 花 很 长 时 间 ， 就 是 NFA (如 果 上 一 项 测试 显示 这 不 是 传统 型 NFA， 那 么 它 肯 
Æi POSIX NFA)。 如 果 时 间 很 短 ， 就 是 DEFA， 或 者 是 支持 某 些 高 级 优化 的 NFA。 如 果 显 
示 堆 栈 超 溢 (stack overflow)， 或 者 超时 退出 ， 那 么 它 是 NFA 引擎 。 


匹配 的 基础 


Match Basics 


在 了 解 不 同 引 擎 的 差异 之 前 ， 我 们 先 看 看 它们 的 相似 之 处 。 汽 车 的 各 种 动力 系统 在 某 些 方 
面 是 一 样 的 (或 者 说 ， 从 实用 的 角度 考虑 ， 它 们 是 一 样 的 )， 所 以 ， 下 面 的 范例 也 能 够 适用 
于 所 有 的 引擎 。 


关于 范例 


About the Examples 


本 章 关 注 的 是 一 般 的 提供 所 有 功能 的 正则 引擎 ， 所 以 ， 某 些 程序 并 不 能 完全 支持 它们 。 在 
本 书 所 说 的 汽车 里 ， 机 油 油 尺 (dipstick) 可 能 挨 在 机 油 滤 清 器 (oil filter) 的 左边 ， 而 在 读 
者 那里 , 它 却 装 在 分 电 盘 盖 (distributor cap) 的 后 面 。 不 过 , 读者 要 做 的 只 是 理解 这 些 概念 ， 
能 够 使 用 和 维护 自己 最 喜欢 〈 以 及 他 们 最 感 兴趣 ) 的 正则 表达 式 包 。 


在 大 部 分 例子 中 , 我 仍然 使 用 Perl 表示 法 ， 虽 然 我 偶尔 会 用 一 些 其 他 的 表示 法 来 提醒 读者 ， 
表示 法 并 不 重要 ， 我 们 讨论 的 问题 与 程序 和 表示 法 不 属于 一 个 层次 。 为 节省 篇 幅 ， 如 果 读 
者 遇 到 不 熟悉 的 构建 方式 ， 请 查阅 第 3 章 (7114), 


本 章 详细 阐释 了 匹配 执行 的 实际 流程 。 理 想 的 情况 是 ， 所 有 的 知识 都 能 归纳 为 几 条 容易 记 
忆 的 简单 规则 ， 使 用 者 不 需要 了 解 这 些 规则 包含 的 原理 。 很 不 幸 ， 事 实 并 非 如 此 。 整 个 第 4 
章 只 能 列 出 两 条 普 适 的 原则 : 


1. 优先 选择 最 左 端 (最 靠 开 头 ) 的 匹配 结果 。 
2. 标准 的 匹配 量词 (o, o Rmn) 是 匹配 优先 的 。 


在 本 章 中 ， 我 们 将 考察 这 些 规则 ， 它 们 的 结果 ， 以 及 其 他 许多 内 容 。 首 先 我 们 详细 讨论 第 
一 条 规则 。 


iti 
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规则 1: 优先 选择 最 左 端的 匹配 结果 


Rule 1: The Match That Begins Earliest Wins 


根据 这 条 规则 ， 起 始 位 置 最 靠 左 的 匹配 结果 总 是 优先 于 其 他 可 能 的 匹配 结果 。 这 条 规则 并 
没有 规定 优先 的 匹配 结果 的 长 度 ( 稍 后 将 会 讨论 ), 而 只 是 规定 , 在 所 有 可 能 的 匹配 结果 中 ， 
优先 选择 开始 位 置 最 左 端的 。 实 际 上 ， 因 为 可 能 有 多 个 匹配 结果 的 起 始 位 置 都 在 最 左 端 ， 
也 许 我 们 应 该 把 这 条 规则 中 的 “ 某 个 匹配 结果 (a match)” 改 为 “该 匹配 结果 (the match)”, 
不 过 这 上 听 起 来 有 些 别扭 。 


这 条 规则 的 由 来 是 : 匹配 先 从 需要 查找 的 字符 串 的 起 始 位 置 尝试 匹配 。 在 这 里 ,“ 尝 试 匹配 

(attempt)” 的 意思 是 ,在 当前 位 置 测试 整个 正则 表达 式 〈 可 能 很 复杂 ) 能 匹配 的 每 样 文本 。 
如 果 在 当前 位 置 测试 了 所 有 的 可 能 之 后 不 能 找到 匹配 结果 ， 就 需要 从 字符 串 的 第 二 个 字符 
之 前 的 位 置 开 始 重新 尝试 。 在 找到 匹配 结果 以 前 必须 在 所 有 的 位 置 重复 此 过 程 。 只 有 在 尝 
试 过 所 有 的 起 始 位 置 (直到 字符 串 的 最 后 一 个 字符 ) 都 不 能 找到 匹配 结果 的 情况 下 ， 才 会 
报告 “匹配 失败 ”。 


所 以 , 如 果 要 用 'ORA, 来 匹配 FLORAL ， 从 字符 串 左边 开始 第 一 轮 尝 试 会 失败 (因为 'oRA 不 
能 匹配 FLO) ， 第 二 轮 尝试 也 会 失败 (‘ora 同样 不 能 匹配 LOR) ， 从 第 三 个 字符 开始 的 尝试 
能 够 成 功 ， 所 以 引擎 会 停 下 来 ， 报 告 匹 配 结果 FLORAL, 
如 果 不 了 解 这 条 规则 ， 有 时 候 就 不 能 理解 匹配 的 结果 。 例 如 ， 用 "cat 来 匹配 : 

The dragging belly indicates that your cat is too fat. 
结果 是 indicates， 而 不 是 后 来 出 现 的 cat, Pia) cat 是 能 够 被 匹配 的 ， 但 indicates 中 
的 cat 出 现 的 更 早 ， 所 以 得 到 匹配 的 是 它 。 对 于 egrep 之 类 的 程序 来 说 ,这 种 差别 是 无 关 紧 
要 的 ， 因 为 它 只 关心 “是 否 ” 能 够 匹配 ， 而 不 是 “在 哪里 ”匹配 。 但 如 果 是 进行 其 他 的 应 
用 ， 例 如 查找 和 替换 ， 这 种 差别 就 很 重要 了 ，。 
这 里 有 一 个 小 测验 (应 该 不 困难 ): 如 果 用 fatlcatlbellylyouri 来 匹配 字符 串 “The 
dragging belly indicates that your cat is too fat.'， 结 果 是 什么 呢 ? 请 看 下 
一 页 。 


"传动 装置 (transmission) ”和 驱动 过 程 (bump-along) 


或 许 汽车 变速 箱 (译注 1) 的 例子 有 助 于 理解 这 条 规则 ， 驾 驶 员 在 换 档 时 ， 变 速 箱 负责 连接 
引擎 和 动力 系统 。 引 擎 是 真正 产生 动力 的 地 方 ( 它 驱 动 曲轴 ), 而 变速 箱 把 动力 传送 到 车 轮 。 


译注 1: 此 处 的 “ 变 速 箱 ” 就 是 上 文中 的 “传动 装置 ”， 为 了 保持 译文 通畅 ， 在 涉及 汽车 时 译 为 
“变速 和 町 ， 在 涉及 正则 表达 式 时 译 为 “传动 装置 "。 


www.TopSage.com 


匹配 的 基础 149 


传动 装置 的 主要 功能 : 驱动 


如 果 引 擎 不 能 在 字符 串 开 始 的 位 置 找到 匹配 的 结果 ， 传 动 装置 就 会 推动 引擎 ， 从 字符 串 的 
一 个 位 置 开 始 尝试 ， 然 后 是 下 一 个 ， 再 下 一 个 ， 如 此 继续 。 不 过 ， 如 果 某 个 正则 表达 式 
是 以 “字符 串 起 始 位 置 锚 点 (start-of-string anchor)” 开 头 的 ， 传 动 装置 就 会 知道 ， 不 需要 
更 多 的 尝试 ， 因 为 如 果 能 够 匹配 ， 结 果 肯 定 是 从 字符 串 的 头 部 开始 的 。 在 第 6 章 中 ， 我 们 
会 讲解 这 一 点 ， 以 及 更 多 的 内 部 优化 措施 。 


引擎 的 构造 


Engine Pieces and Parts 


所 有 的 引擎 都 是 由 不 同 的 零 部 件 组 合 而 成 的 。 如 果 对 这 些 零件 缺乏 了 解 ， 也 就 不 可 能 真正 
理解 引擎 的 工作 原理 。 正 则 引擎 中 的 这 些 零 件 分 为 几 类 一 一 文字 字符 (literal characters), 
量词 (qualifiers)、 字 符 组 (character classes) 、 括 号 ， 等 等 ， 我 们 在 第 3 章 介 绍 过 (7114), 
这 些 和 零件 的 组 合 方式 (以 及 正则 引 敬 对 它们 的 处 理 方式 ) 决定 了 引擎 的 特性 ， 所 以 ， 这 些 
零件 的 组 合 方式 ， 以 及 它们 之 间 的 配合 ， 是 我 们 主要 关注 的 东西 。 首 先 ， 让 我 们 来 看 看 这 
些 零件 : 


文字 文本 (Literal Text) 例如 a、\*、!、 枝 … 


对 于 非 元 字符 的 文字 字符 ， 尝 试 匹配 时 需要 考虑 就 是 “这 个 字符 与 当前 尝试 的 字符 相 
同 吗 ?“。 如 果 一 个 正则 表达 式 只 包含 纯 文本 字符 ， 例 如 usaj， 那 么 正则 引擎 会 将 其 
WA: 一 个 u, 接着 一 个 sj, 接着 一 个 ai。 进行 不 区 分 大 小 写 的 匹配 时 的 情况 要 复杂 
一 点 ， 因 为 bi 能 够 匹配 B， 而 'B 也 能 匹配 b， 不 过 这 仍然 不 难 理解 (Unicode 的 情况 
稍微 复杂 一 些 110)。 


字符 组 、 点 号 、Unicode 属性 及 其 他 


通常 情况 下 ,字符 组 、 点 号 、Unicode 属性 及 其 他 的 匹配 是 比较 简单 的 : 无 论 字符 组 的 
长 度 是 多 少 ， 它 都 只 能 匹配 一 个 字符 ( 注 2)。 


点 号 可 以 很 方便 地 表示 复杂 的 字符 组 ， 它 几乎 能 匹配 所 有 字符 ， 所 以 它 的 作用 也 很 简 
单 ， 其 他 的 简便 方式 还 包括 \w, WWA Ade 


捕获 型 括号 
用 于 捕获 文本 的 括号 (而 不 是 用 于 分 组 的 括号 ) 不 会 影响 匹配 的 过 程 。 
注 2: 其 实 ， 正 如 我 们 在 前 一 章 看 到 的 (了 128) ，POSIX 的 collating 序列 能 够 匹配 多 个 字符 ， 但 


这 并 不 常见 。 同 样 ， 在 进行 不 区 分 大 小 写 的 匹配 时 ， 某 些 Unicode 字符 可 以 匹配 多 个 字条 
(110)， 尽 管 大 多 数 实现 并 不 支持 此 功能 。 
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测验 答案 


> 148 页 测验 的 答案 
请 记 住 , 正则 表达 式 的 每 一 次 尝试 都 要 进行 到 底 , 所 以 'fat1cat1belly|your) MAL 


配 “The dragging belly indicates your cat is too fat’ #4 RAA fat, X 
€ fats 在 所 有 可 能 选项 中 列 在 最 前 头 。 

当然 ， 正 则 表达 式 应 该 也 能 够 匹配 fat 和 其 他 可 能 ， 但 它们 都 不 是 最 洁 出 现 的 匹配 结 
X ( 除 现在 最 左边 的 结果 ) ， 所 以 不 会 被 选择 。 在 进行 下 一 轮 堂 试 之 前 ， 正 则 表达 式 的 
所 有 可 能 都 会 尝试 , 也 就 是 说 , 在 移动 之 前 ,'fati、 ‘cats, ‘belly Fe your 都 必须 尝试 。 





锚 点 (e.g., fa, Az] '(2?<=\d))°**) 


锁 点 可 以 分 为 两 大 类 : 简单 销 点 (CO. S.AG \b, 7129) 和 复杂 销 点 (例如 顺序 环视 
和 逆序 环视 133)。 简 单 锚 点 之 所 以 得 名 ， 就 在 于 它们 只 是 检查 目标 字符 串 中 的 特定 
位 置 的 情况 (~^、\z..), 或 者 是 比较 两 个 相 邻 的 字符 (\<、\b、.…)。 相 反 , BARRA CH 
视 ) 能 包含 任意 复杂 的 子 表达 式 ， 所 以 它们 也 可 以 任意 复杂 。 


非 “电动 ”的 括号 、 反 向 引用 和 忽略 优先 量词 


虽然 本 章 希 望 讲解 的 是 引擎 之 间 的 相似 之 处 ， 但 为 了 方便 读者 理解 本 章 余下 的 内 容 ， 这 里 
必须 指出 一 些 有 意义 的 差异 。 捕 获 括号 (以 及 相应 的 反 向 引用 和 $1 表示 法 ) 就 像 汽 油 添加 
剂 一 样 一 一 它们 只 对 汽油 机 (NFA) 起 作用 ， 对 电动 机 (DFA) 不 起 作用 。 忽 略 优先 量词 也 
是 如 此 。 这 种 情况 是 由 DFA 的 工作 原理 决定 的 (TE 3)。 这 解释 了， 为 什么 DFA 引擎 不 支 
持 这些 特 性 。 读 者 会 看 到 ，awk、iex 和 egrep 都 不 支持 反 向 引用 和 $1 功能 (表示 法 )。 


也 许 读者 会 注意 到 ，GNU 版 本 的 egrep 确实 支持 反 向 引用 。 这 是 因为 它 包 含 了 两 台 不 同 的 
引擎 。 它 首先 使 用 DFA 查找 可 能 的 匹配 结果 ， 再 用 NFA (支持 包括 反 向 引用 在 内 的 所 有 特 
性 ) 来 确认 这 些 结果 。 接 下 来 ， 我 们 将 看 到 DFA 不 能 支持 反 向 引用 及 捕获 括号 的 原因 ， 以 
及 这 种 引擎 能 够 存在 的 理由 (DFA 有 很 多 显著 的 优势 ， 例 如 匹配 速度 非常 快 )。 


注 3: 这 并 非 是 说 ， 我 们 不 能 粳 合 两 种 引擎 的 长 处 以 求 最 佳 。 请 参考 第 182 页 的 补充 内 容 。 
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规则 2: 标准 量词 是 匹配 优先 的 


Rule 2: The Standard Quantifiers Are Greedy 





BA AL, PABBA EE BIE BM. AMR ELI BS —_ sem SA RLS, 
就 需要 使 用 星 号 、 加 号 、 多 选 结构 之 类 功能 更 强大 的 元 字符 。 要 彻底 理解 这 些 功能 ， 需 要 
学 习 更 多 的 知识 。 


读者 首先 需要 记 住 的 是 , 标准 匹配 量词 (?、*、+, 以 及 {min, max) 都 是 “匹配 优先 (greedy)” 
的 。 如 果 用 这 些 量词 来 约束 某 个 表达 式 , Plan (expr) *, 中 的 '(expr)1、'a?; 中 的 'ay 和 '[0-9] + 
中 的 [0-9],， 在 匹配 成 功 之 前 ， 进 行 尝试 的 次 数 是 存在 上 限 和 下 限 的。 在 前 面 的 章节 中 我 
们 已 经 提 到 过 这 一 点 一 一 而 规则 2 表明 ， 这 些 尝试 总 是 希望 获得 最 长 的 匹配 (一些 工具 提 
供 了 其 他 的 匹配 量词 ， 但 是 本 节 只 讨论 标准 的 匹配 优先 量词 )。 


简 而 言 之 ， 标 准 匹 配 量 词 的 结果 “可 能 ”并 非 所 有 可 能 中 最 长 的 ， 但 它们 总 是 尝试 匹配 尽 
可 能 多 的 字符 ， 直 到 匹配 上 限 为 止 。 如 果 最 终结 果 并 非 该 表达 式 的 所 有 可 能 中 最 长 的 ， 原 
因 表 定 是 匹配 字符 过 多 导致 匹配 失败 。 举 个 简单 的 例子 : 用 "b\w+s\bj 来 匹配 包含 “s' 的 
FAR, 比如 说 “regexes',"\w+, 完 全 能 够 匹配 整个 单词 , 但 如 果 用 w+, 来 匹配 整个 单词 ， 
‘sy 就 无 法 匹配 了 。 为 了 完成 匹配 , \w 必须 匹配 “regexes”， 把 最 后 的 's\bj 留 出 来 。 


如 果 表 达 式 的 其 他 部 分 能 够 成 功 匹配 的 唯一 条 件 是 ， 匹 配 优先 的 结构 不 匹配 任何 字符 ， 在 
容许 零 匹 配 (译注 2) 的 情况 下 〈 例 如 使 用 星 号 、 问 号 ， 或 者 {0, max} ， 这 是 没有 问题 的 。 
不 过 ， 这 种 情况 只 有 在 表达 式 的 后 续 部 分 强迫 下 才能 发 生 。 匹 配 优先 量词 之 所 以 得 名 ， 是 
因为 它们 总 是 (或 者 ， 至 少 是 尝试 ) 匹配 多 于 匹配 成 功 下 限 的 字符 。 


匹配 优先 的 性 质 可 以 非常 有 用 (有 了 时候 也 非常 讨厌 )。 它 可 以 用 来 解释 '[0-9] + 为 什么 能 匹 
配 March*1998 中 的 所 有 数字 。1 匹配 之 后 ， 实 际 上 已 经 满足 了 成 功 的 下 限 ， 但 此 正则 表达 
式 是 匹配 优先 的 ， 所 以 它 不 会 停 在 此 处 ， 而 会 继续 下 去 ， 继 续 匹 配 “998" ， 直 到 这 个 字符 
串 的 末尾 (因为 '[0-9]1 不 能 匹配 字符 捉 最 后 的 空 档 ， 所 以 会 停 下 来 )。 


邮件 主题 


显然 , 这 种 匹配 方式 并 非 只 能 用 于 匹配 数字 。 举例 来 说 , 如 果 我 们 需要 判断 E-mail 的 header 
中 的 某 行 字符 是 否 标题 行 (subject line)。 前 面 (755) RIEZ, TLAM subject: 
来 实现 。 不 过 ， 如 果 使 用 '^subject :"( .*),， 我 们 就 能 在 之 后 的 程序 中 使 用 捕获 型 括号 来 
访问 主题 的 内 容 (例如 Perl 中 的 $1) (译注 3)。 


译注 2: zero match， 即 不 匹配 任何 字符 也 能 成 功 的 匹配 。 
译注 3: 这 个 例子 用 捕获 型 括号 来 讲解 匹配 优先 ， 所 以 它 只 适用 于 NFA (只 有 NFA 支持 捕获 型 
括号 ) 。 不 过 ， 匹 配 优先 的 特性 对 所 有 引擎 都 是 一 样 的 ， 包 括 不 支持 捕获 的 DFA。 
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在 探讨 “匹配 邮件 主题 之 前 ， 请 读者 记 住 ， 一 旦 “subject: 能够 部 分 匹配 ， 整 个 正则 
表达 式 就 一 定 能 够 全 部 匹配 。 因 为 “subject : ,之 后 没有 字符 会 导致 表达 式 匹 配 失败 : !. *， 
水 远 不 会 失败 ， 因 为 “不 匹配 任何 字符 ”也 是 '.*, 的 可 能 结果 之 一 。 


那么 ， 为 什么 要 添加 U? 这 是 因为 我 们 知道 ， 星 号 是 匹配 优先 的 ， 它 会 用 点 号 匹配 尽 
可 能 多 的 字符 ， 所 以 我 们 用 它 来 “填充 ”$1。 事 实 上 ， 括 号 并 没有 影响 正则 表达 式 的 匹配 
过 程 ， 在 本 例 中 ， 我 们 只 是 用 它们 来 包括 '.*| 匹配 的 字符 。 


“…* 到达 字符 捉 的 末尾 之 后 点 号 不 能 继续 匹配 ， 所 以 星 号 最 终 停 下 来 ， 尝 试 匹 配 表达 式 中 
的 下 一 个 元 素 (尽管 .*, 无 法 继续 匹配 了 ， 但 下 面 的 子 表达 式 或 许 能 够 继续 匹配 ) 。 不 过 ， 
因为 本 例 中 不 存在 后 面 的 元 素 ， 到 达 表 达 式 的 未 尾 之 后 ， 我 们 就 获得 了 成 功 的 匹配 结果 。 


过 度 的 匹配 优先 


现在 让 我 们 回 过 头 去 看 “ 尽 可 能 匹配 ”的 匹配 优先 量词 。 如 果 我 们 在 上 面 的 例子 中 增加 一 
A't, 把 正则 表达 式 写 作 “subject:(.*) .si， 结 果 会 是 如 何 呢 ? 答案 是 ,没有 变化 。 开 
头 的 .* (括号 中 的 ) 会 霸占 整个 标题 的 文本 , 而 不 给 第 二 个 和 .*, 留 下 任何 字符 。 而 第 二 个 
《的 匹配 失败 并 不 要 紧 , 因为 '.*, 不 匹配 任何 字符 也 能 成 功 。 如 果 我 们 给 第 二 个 和.* 也 加 
上 括号 ，$2 将 会 是 空白 。 


这 是 否 说 明 ， 在 正则 表达 式 中 ，. 国 的 部 分 没有 机 会 匹配 任何 字符 呢 ? 答案 显然 是 否定 的 。 
就 像 我 们 在 \w+s; 这 个 例子 中 看 到 的 ， 如 果 进 行 全 部 匹配 必须 这 样 做 ， 表 达 式 中 的 某 些 部 
分 可 能 “强迫 ”之 前 匹配 优先 的 部 分 “释放 ” (或 者 说 “交还 (unmatch)”) 某 些 字 符 。 


“.*([0-9] [0-9]))1 或 许 是 个 有 用 的 正则 表达 式 ， 它 能 够 匹配 一 行 字符 的 最 后 两 位 数字 ， 
如 果 有 的 话 ， 然 后 将 它们 存储 在 $1 中 。 下 面 是 匹配 的 过 程 : '.*, 首 先 匹配 整 行 ， 而 “10-9] 
[0-9]1 是 必须 匹配 的 ， 在 尝试 匹配 行 末 的 时 候 会 失败 ， 这 样 它 会 通知 .*,:“ 蜂 ， 你 占 的 太 
ET, 交 出 一 些 字符 来 吧 , 这 样 我 没准 能 匹配 。” 匹 配 优 先 组 件 首先 会 匹配 尽 可 能 多 的 字符 ， 
但 为 了 整个 表达 式 的 匹配 ， 它 们 通常 需要 “释放 ”一 些 字符 (抑制 自己 的 天 性 )。 当 然 ， 它 
们 并 不 “愿意 ”这 样 做 ， 只 是 不 得 已 而 为 之 。 当 然 ,“ 交 还 ” 绝 不 能 破坏 匹配 成 立 必须 的 条 
件 ， 比 如 加 号 的 第 一 次 匹配 。 


ti 


www.TopSage.com 


表达 式 主 导 与 文本 主导 153 


明白 了 这 一 点 , 我 们 来 看 全 .*([0-9] (0-9])) PERG ‘about-24-characters-long’ 的 过 程 。 
-匹配 整个 字符 串 以 后 , 第 一 个 '10-91, 的 匹配 要 求 '.* 释放 一 个 字符 o (最 后 的 字符 )。 
但 是 这 并 不 能 让 ' (0-9), DER, 所 以 …* 必须 继续 “交还 ”字符 , 接 下 来 交还 的 字符 是 n 。 
如 此 循环 15 tk, 直到 .*, 最 终 释 放 ‘4’ 为 止 。 

不 幸 的 是 ， 即 使 第 一 个 '[0-9], 能 够 匹配 “4'， 第 二 个 (0-9), 仍然 不 能 匹配 。 为 了 匹配 整 


个 正则 表达 式 ,“.*| 必须 再 次 释放 一 个 字符 , 这 次 是 “2', 由 第 一 个 '[0-9] 匹配。 现在 ,4" 
能 够 由 第 二 个 '[0-9] 1 匹配, 所 以 整个 表达 式 匹配 的 是 “about*24:char…", $1 的 值 是 "24 。 





先 来 先 服务 


如 果 用 “.*[0-9]+! 来 匹配 一 行 的 最 后 两 个 数字 , 期 望 匹配 的 不 止 是 最 后 两 位 数字 , 而 是 最 
后 的 整个 数 ， 结 果 会 是 多 长 呢 ? 如 果 用 它 来 匹配 “copyright 2003. ， 结 果 是 什么 ? OF 
案 在 下 一 页 。 


深入 细节 


在 这 里 必须 澄清 一 些 东 西 。 因 为 “.*, 必 须 交 还 …” 或 者 “[0-9], 迫 使 … ”之 类 的 说 法 或 
许 容易 引起 混 消 。 我 使 用 这 些 说 法 是 因为 它们 易于 理解 ， 而 且 跟 实际 的 结果 一 致 。 不 过 ， 
事情 的 真相 是 由 基本 的 引擎 类 型 决定 一 一 是 DFA， 还 是 NFA。 现 在 我 们 就 来 看 这 些 。 


表达 式 主导 与 文本 主导 


Regex-Directed Versus Text-Directed 


DFA 和 NFA 反映 了 将 正则 表达 式 在 应 用 算法 上 的 根本 差异 。 我 把 对 应 汽油 机 的 NFA 称 为 
“表达 式 主 导 (regex-directed) ”引擎 , 而 对 应 电动 机 的 DFA 称 为 “文本 主导 (text-directed )” 
引擎 。 


NFA 引擎 , 表达 式 主导 


NFA Engine: Regex-Directed 


我 们 来 看 用 ‘to (nitelknight |Inight), PLACA ‘tonight 的 一 种 办 法 。 正 则 表达 式 
Mic FPR, 每 次 检查 一 部 分 (由 引擎 查看 表达 式 的 一 部 分 )， 同 时 检查 “当前 文本 〈current 
text)” 是 否 匹 配 表达 式 的 当前 部 分 。 如 果 是 ， 则 继续 表达 式 的 下 一 部 分 ， 如 此 继续 ， 直 到 
表达 式 的 所 有 部 分 都 能 匹配 ， 即 整个 表达 式 能 够 匹配 成 功 。 
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测验 答案 


令 153 页 测验 的 答案 

用 '*.*([0-9]+)) 匹配 ‘copyright 2003.’, MFRRRAH 2A? 

这 个 表达 式 的 本 意 是 捕获 整个 数字 2003， 但 结果 并 非 如 此 。 之 前 已 经 说 过 ， 为 了 满足 
[0-9]+) 的 匹配 ，. 岂 必须 交还 一 些 字符。 在 这 个 例子 中 ， 释 放 的 字符 是 最 后 的 “3， 
和 上 点 号 ， 之 后 “3” 能 够 由 '[0-9]， 匹配 。'[0-9]1 由 和 + 量词 修饰 ， 所 以 现在 还 只 做 到 
了 最 小 的 匹配 可 能 ， 现 在 它 遇 到 了 “.'， 找 不 到 其 他 可 以 匹配 的 字符 。 

与 之 前 不 同 , 此 时 没有 “必须 ”匹配 的 元 素 ,所 以 '.* 不 会 被 连 交 出 0。 SH, 100-91+， 
应 当心 存 感激 ， 接 受 匹 配 优 先 元 素 的 馈赠 ， 但 请 记 住 “ 先 来 先 服务 ”原则 。 匹 配 优先 
的 结构 只 会 在 被 连 的 情况 下 交还 字符 。 所 以 ， 最 终 $1 的 值 是 “3 7。 

如 果 读 者 觉得 难以 理解 ,不 妨 这 样 想 ，[0-9]+) 和 和 [0-9]* 差 不 多 ,而 本 例 中 和 [0-9]*， 
和 .* 是 一 样 的 。 用 它 来 普 换 原来 的 表达 式 丰 .*([0-9]+) 1， 我 们 得 到 中.*(.*)1， 这 
与 152 页 的 ^Subject:*(.*) .四 很 相似 ， 第 二 个 '.* 不 会 匹配 任何 字符 。 





Æ 'to(nitelknight lnight) ,的 例子 中 ， 第 一 个 元 素 是 't,， 它 将 会 重复 尝试 ， 直 到 在 目标 
字符 串 中 找到 “t+ ”为止 。 之后， 就 检查 紧 随 其 后 的 字符 是 否 能 由 'o 匹配 ， 如 果 能 ， 就 检 
查 下 面 的 元 素 , 在 本 例 中 ,“ 下 面 的 元 素 ” 指 ' (nitelknight inight),; EAVES VE “nice 
或 者 knight) 或 者 night”。 引 擎 会 依次 尝试 这 3 种 可 能 。 我 们 (具有 高 级 神经 网 络 的 人 
K) 能 够 发 现 ， 如 果 待 匹配 的 字符 串 是 tonight ， 第 三 个 选择 能 够 匹配 。 不 论 神经 学 起 源 
(785) 如 何 ， 表 达 式 主导 的 引擎 必须 完全 测试 ， 才 能 得 出 结论 。 


尝试 nite 的 过 程 与 之 前 一 样 : “尝试 匹配 mJ, 然后 是 ,然后 是 ri， 最 后 是 'e/。” 如 果 这 
种 尝试 失败 一 一 就 像 本 例 ， 引 敬 会 尝试 另 一 种 可 能 ， 如 此 继续 下 去 ， 直 到 匹配 成 功 或 是 报 
告 失败 。 表 达 式 中 的 控制 权 在 不 同 的 元 素 之 间 转 换 ， 所 以 我 称 它 为 “表达 式 主导 "。 
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NFA 引擎 在 操作 上 的 优点 


实质 上 ， 在 表达 式 主导 的 匹配 过 程 中 ， 每 一 个 子 表达 式 都 是 独立 的 。 这 不 同 于 反 向 引用 ， 
子 表达 式 之 间 不 存在 内 在 联系 ， 而 只 是 整个 正则 表达 式 的 各 个 部 分 。 在 子 表达 式 与 正则 表 
达 式 的 控制 结构 (多 选 分 支 、 括 号 以 及 匹配 量词 ) 的 层级 关系 (layout) 控制 了 整个 匹配 过 
程 。 


因为 NFA 引擎 是 正则 表达 式 主导 的 ， 驾 驶 员 (也 就 是 编写 表达 式 的 人 ) 有 充足 的 机 会 来 实 
现 他 /她 期 望 的 结果 (第 5 章 和 第 6 章 将 会 告诉 读者 ， 如 何 正确 高 效 地 实现 目标 )。 现 在 看 
起 来 ， 这 点 还 有 些 模糊 ， 但 过 一 段 就 会 变 清晰 。 


DFA 引擎 : 文本 主导 


DFA Engine: Text-Directed 


与 表达 式 主导 的 NFA 不 同 ，DFA 引擎 在 扫描 字符 串 时 ,会 记录 “当前 有 效 (currently in the 
works)” 的 所 有 匹配 可 能 。 具 体 到 tonight 的 例子 ， 引 擎 移动 到 t 时 ， 它 会 在 当前 处 理 的 
匹配 可 能 中 添加 一 个 潜在 的 可 能 : 


NR ee FF 
j « ve pet + 
es a 


after…toni ht TRHERLE. botni ‘Celkaightini rosy 





有 效 的 可 能 匹配 变 为 两 个 (knight 被 淘汰 出 局 ) 。 扫 描 到 gs 时 ， 就 只 剩 下 一 个 可 能 匹配 了 。 
当 h 和 * 匹配 完成 后 ， 引 擎 发 现 匹 配 已 经 完成 ， 报 告 成 功 。 


我 称 这 种 方式 为 “文本 主导 ”， 是 因为 它 扫 描 的 字符 串 中 的 每 个 字符 都 对 引擎 进行 了 控制 。 

在 本 例 中 ， 某 个 未 完成 的 匹配 也 许 是 任意 多 个 (只 要 可 行 ) 匹配 的 开始 。 不 合适 的 匹配 可 
能 在 扫描 后 继 文字 时 会 被 去 除 。 在 某 些 情况 下 , “处理 中 的 未 终结 匹配 (partial match in 
progress)” 可 能 就 是 一 个 完整 的 匹配 。 例 如 正则 表达 式 “to(…) ?,， 括 号 内 的 部 分 并 不 是 必 
须 出 现 的 ， 但 考虑 到 匹配 优先 的 性 质 ， 引 擎 仍然 会 尝试 匹配 括号 内 的 部 分 。 匹 配 过 程 中 ， 

在 尝试 括号 内 的 部 分 了 时， 完整 匹配 (‘to’) 已 经 保留 下 来 ， 以 应 付 括号 中 的 内 容 无 法 匹配 
的 情况 。 
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如 果 引 警 发 现 ， 文 本 中 出 现 的 某 个 字符 会 令 所 有 处 理 中 的 匹配 可 能 失效 ， 就 会 返回 某 个 之 
前 保留 的 完整 匹配 。 如 果 不 存 在 这 样 的 完整 匹配 ， 则 要 报告 在 当前 位 置 无 法 匹配 。 


第 一 想法 : 比较 NFA 5 DFA 


First Thoughts: NFA and DFA in Comparison 


如 果 读 者 根据 上 面 介绍 的 知识 比较 NFA 和 DFA， 可 能 会 得 出 结论 : 一 般 情 况 下 ， 文 本 主导 
的 DFA 引擎 要 快 一 些 。 正则 表达 式 主 导 的 NFA 引擎 , 因为 需要 对 同样 的 文本 尝试 不 同 的 子 
表达 式 匹 配 ， 可 能 会 浪费 时 间 (就 好 像 上 面 例子 中 的 3 个 分 支 ) 。 


这 个 结论 是 对 的 。 在 NFA 的 匹配 过 程 中 ， 目 标 文 本 中 的 某 个 字符 可 能 会 被 正则 表达 式 中 的 
不 同 部 分 重复 检测 (甚至 有 可 能 被 同一 部 分 反复 检测 )。 即 使 某 个 字 表 达 式 能 够 匹配 ， 为 了 
检查 表达 式 中 剩 下 的 部 分 ， 找 到 匹配 ， 它 也 可 能 需要 再 一 次 应 用 (甚至 可 能 反复 多 次 )。 单 
独 的 子 表达 式 可 能 匹配 成 功 ， 也 可 能 失败 ， 但是， 直到 抵达 正则 表达 式 的 末尾 之 前 ， 我 们 
都 无 法 确 知 全 局 匹配 成 功 与 否 (也 就 是 说 “不 到 最 后 关头 不 能 分 胜 负 (It's not over until the fat 
lady sings)”, 但 这 句 话 又 不 符合 本 段 的 语 境 )。 相反, DFA 引擎 则 是 确定 型 的 (deterministic ) 
一 一 目标 文本 中 的 每 个 字符 只 会 检查 (最多) 一 遍 。 对 于 一 个 已 经 匹配 的 字符 ， 你 无 法 义 
道 它 是 否 属于 最 终 匹 配 〈 它 可 能 属于 最 终 会 失败 的 匹配 ) ， 但 因为 引擎 同时 记录 了 所 有 可 能 
的 匹配 ， 这 个 字符 只 需要 检测 一 次 ， 如 此 而 已 。 


正则 表达 式 引 擎 所 使 用 的 两 种 基本 技术 , 都 对 应 有 正式 的 名 字 : 非 确定 型 有 穷 自 动机 (NFA) 
和 确定 型 有 穷 自 动机 (DFA)。 这 两 个 名 字 实 在 是 太 饶 舌 ， 所 以 我 坚持 只 用 DFA 和 NFA, 
下 文中 不 会 出 现 它们 的 全 称 了 ( 注 4)。 


用 户 需 要 面 对 的 结果 


因为 NFA 具有 表达 式 主 导 的 特性 ， 引 擎 的 匹配 原理 就 非常 重要 。 我 已 经 说 过 ， 通 过 改变 表 
达 式 的 编写 方式 ， 用 户 可 以 对 表达 式 进行 多 方面 的 控制 。 拿 tonight 的 例子 来 说 ， 如 果 改 
变 表 达 式 的 编写 方式 ， 可 能 会 节省 很 多 工夫 ， 比 如 下 面 这 3 种 方式 : 

® itolni(ghtilte) |knight)) 

9 Honicel toknight | 上 tonightl 


a Ito(k?night Inite}; 


注 4: 我 倒是 希望 能 讲解 这 两 个 名 字形 后 的 理论 ， 可 惜 我 不 知道 该 如 何 做 。 我 已 经 暗示,“ 确 定 
型 ”这 个 名 词 是 很 重要 的 ， 但 是 ， 我 们 只 需要 懂得 实际 的 将 果 ， 而 这 宕 理论 的 大 部 分 内 容 
与 本 书 无 关 。 读 完 本 章 ， 你 会 发 现 事实 就 是 如 此 。 
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给 出 任意 文本 ， 这 3 个 表达 式 都 可 以 捕获 相同 的 结果 ， 但 是 它们 以 不 同 的 方式 控制 引擎 。 
现在 ， 我 们 还 无 法 分 辨 这 3 者 的 优 劣 ， 不 过 接 下 来 会 看 到 。 


DFA 的 情况 相反 一 一 引擎 会 同时 记录 所 有 的 匹配 选择 ， 因 为 这 3 个 表达 式 最 终 能 够 捕获 的 
文本 相同 ， 在 写法 上 的 差异 并 无 意义 。 取 得 一 个 结果 可 能 有 上 百 种 途径 ， 但 因为 DFA 能 够 
同时 记录 它们 (有 点 神奇 ， 待 稍 后 详 述 )， 选 择 哪 一 个 表达 式 并 无 区 别 。 对 纯粹 的 DFA 来 
说 ， 即 使 abc, 和 ”[aa-al (blb{1}1b)ci 看 来 相差 巨大 ， 但 其 实 是 一 样 的 。 


如 果 要 描述 DFA ， 我 能 想到 的 特征 有 : 
*。 DFA 匹配 很 迅速 。 

。 DFA 匹配 很 一 致 。 

。 iit DFA 匹配 很 恼人 。 

最 终 我 会 展开 这 3 点 。 


因为 NFA 是 表达 式 主导 的 ， 谈 论 它 是 件 很 有 意思 的 事情 。NFA 为 创造 性 思维 提供 了 丰富 的 
施展 空间 。 调 校 好 一 个 表达 式 能 带 来 许多 收益 ， 调 校 不 好 则 会 带 来 严重 后 果 。 这 就 好 比 发 
动机 的 熄火 和 点 不 着 火 ， 他 们 并 不 只 是 汽油 发 动机 的 专利 。 为 了 彻底 和 弄 明白 这 个 问题 ， 我 
们 来 看 NFA 最 重要 的 部 分 : 回溯 (backtracking), 


回 济 


Backtracking 


NFA 引擎 最 重要 的 性 质 是 ， 它 会 依次 处 理 各 个 子 表达 式 或 组 成 元 素 ， 遇 到 需要 在 两 个 可 能 
成 功 的 可 能 中 进行 选择 的 时 候 ， 它 会 选择 其 一 ， 同 时 记 住 另 一 个 ， 以 备 稍 后 可 能 的 需要 。 


需要 做 出 选择 的 情形 包括 量词 (决定 是 否 尝试 另 一 次 匹配 ) 和 多 选 结构 (决定 选择 哪个 多 
选 分 支 ， 留 下 哪个 稍 后 尝试 ) 。 


不 论 选 择 那 一 种 途径 ， 如 果 它 能 匹配 成 功 ， 而 且 正 则 表达 式 的 余下 部 分 也 成 功 了 ， 匹 配 即 
告 完成 。 如 果 正 则 表达 式 中 余下 的 部 分 最 终 匹 配 失败 ， 引 擎 会 知道 需要 回溯 到 之 前 做 出 选 
择 的 地 方 ， 选 择 其 他 的 备用 分 支 继续 尝试 。 这 样 ， 引 擎 最 终 会 尝试 表 达 式 的 所 有 可 能 途径 
(或 者 是 匹配 完成 之 前 需要 的 所 有 途径 )。 
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真实 世界 中 的 例子 : HAR 


A Really Crummy Analogy 


Fl ae wR AR AE ERE A n ER RE RR, BRAT, 
直到 遇见 面包 悄 标 示 的 尚未 尝试 过 的 道路 。 如 果 那 条 路 也 走 不 通 ， 你 可 以 继续 返回 ， 找 到 
下 一 堆 面 包 悄 ， 如 此 重复 ， 直 到 找到 出 路 ， 或 者 走 完 所 有 没有 尝试 过 的 路 。 


在 许多 情况 下 ， 正 则 引擎 必须 在 两 个 (或 更 多 ) 选项 中 做 出 选择 一 一 我 们 之 前 看 到 的 分 支 
的 情况 就 是 一 例 。 另 一 个 例子 是 ， 在 遇 到 '…x?…) 时 ， 引 擎 必须 决定 是 否 尝试 匹配 x. t 
于 …x+… 的 情况 ， 毫 无 疑问 , xs 至 少 尝试 匹配 一 次 一 一 因为 加 号 要 求 必须 匹配 至 少 一 次 。 
第 一 个 x 匹配 之 后 , 此 要 求 已 经 满足 , 需要 决定 是 否 尝 试 下 一 个 xj。 如 果 决 定 进行 ,还 要 
决定 是 否 匹配 第 三 个 x, WUA 'x,， 如 此 继续 。 每 次 选择 ， 其 实 就 是 酒 下 一 堆 “ 面 包 悄 ”, 
用 十 提示 此 处 还 有 另 一 个 可 能 的 选择 (目前 还 不 能 确定 它 能 否 匹配 )， 保 留 起 来 以 备用 。 





一 个 简单 的 例子 


现在 来 看 个 完整 的 例子 ， 用 先前 的 'to(nitelknight night) EREE ‘hot-tonic: 
tonight! “ (看 起 来 有 点 无 聊 ， 但 是 个 好 例子 ) 。 第 一 个 元 素 已, 从 字符 串 的 最 左 端 开 始 尝 
试 ， 因 为 无 法 匹配 “h  ， 所 以 在 这 个 位 置 匹配 失败 。 传 动 装置 于 是 驱动 引擎 向 后 移动 ， 从 
第 二 个 位 置 开始 匹配 (同样 也 会 失败 )， 然 后 是 第 三 个 。 这 时 候 't, 能 够 匹配 ， 接 下 来 的 o 
无 法 匹配 ， 因 为 字符 串 中 对 应 位 置 是 一 个 空格 。 至 此 ， 本 轮 尝 试 宣告 失败 。 


继续 下 去 ， 从 …,tonic… 开 始 的 尝试 则 很 有 意思 。to KRAZE, MEA 3 个 多 选 分 支 
都 成 为 可 能 。 引 擎 选取 其 中 之 一 进行 尝试 ， 留 下 其 他 的 备用 (也 就 是 酒 下 一 些 面包 屑 )。 在 
讨论 中 , 我 们 假定 引擎 首先 选择 的 是 nitel。 这 个 表达 式 被 分 解 为 “mi+ i++re”， 在 … 
toni,c… 遭 遇 失 败 。 但 此 时 的 情况 与 之 前 不 同 ， 这 种 失败 并 不 意味 着 整个 表达 式 匹 配 失 败 
一 ~ 因为 仍然 存在 没有 尝试 过 的 多 选 分 支 ( 就 好 像 是 ， 我 们 仍然 可 以 找到 先前 留 下 的 面包 
JA). 假设 引擎 然 后 选择 knight,, 那么 马上 就 会 遭遇 失败 ,因为 ki 不 能 匹配 “n'。 现在 只 
剩 下 最 后 的 选项 night, 但 它 不 能 失败 。 因 为 "might 是 最 后 尝试 的 选项 , 它 的 失败 也 就 意 
味 着 整个 表达 式 在 …tonic… 的 位 置 匹配 失败 ， 所 以 传动 机 构 会 驱动 引擎 继续 前 进 。 


i 
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直到 引擎 开始 从 … tonight! 处 开始 匹配 ， 情 况 又 变 得 有 趣 了 。 这 一 次 ， 多 选 分 支 nighti 
终于 可 以 匹配 字符 串 的 结尾 部 分 了 (于 是 整体 匹配 成 功 ， 现 在 引擎 可 以 报告 匹配 成 功 了 )。 


回溯 的 两 个 要 点 


Two Important Points on Backtrachitig 


回溯 机 制 的 基本 原理 并 不 难 理解 ， 还 是 有 些 细节 对 实际 应 用 很 重要 。 它 们 是 ， 面 对 众多 选 
择 时 ， 哪 个 分 支 应 当 首先 选择 ? 回溯 进行 时 ， 应 该 选取 哪个 保存 的 状态 ?第 一 个 问题 的 答 
案 是 下 面 这 条 重要 原则 : 


如 果 需 要 在 “进行 尝试 ”和 “ 跳 过 尝试 ”之 间 选 择 ， 对 于 匹配 优先 量词 ， 引 擎 会 优先 
选择 “进行 尝试 "， 而 对 于 忽略 优先 量词 ， 会 选择 “ 跳 过 尝试 ”。 


此 原则 影响 深远 。 对 于 新 手 来 说 ， 它 有 助 于 解释 为 什么 匹配 优先 的 量词 是 “匹配 优先 ”的 ， 
但 还 不 完整 。 要 想 彻底 弄 清 楚 这 一 点 ， 我 们 需要 了 解 回 溯 时 使 用 的 是 哪个 (或 者 是 哪些 个 ) 
之 前 保存 的 分 支 ， 答 案 是 : 


距离 当前 最 近 储 存 的 选项 就 是 当 本 地 失败 强制 回 少时 返回 的 。 使 用 的 原则 是 LIFO (last 
in first out， 后 进 先 出 )。 


用 面包 习 比 喻 就 很 好 理解 一 一 如 果 前 面 是 死路 ， 你 只 需要 沿 原 路 返回 ， 直 到 找到 一 堆 面 包 
悄 为 止 。 你 会 遇 到 的 第 一 堆 面 包 悄 就 是 最 近 洒 下 的 。 传 统 的 LIFO 比喻 也 是 这 样 : 就 像 堆 全 
盘子 一 样 ， 最 后 登 上 去 的 盘子 肯定 是 最 先 拿 下 来 的 。 


备用 状态 


Saved States 


用 NFA 正则 表达 式 的 术语 来 说 ， 那 些 面 包 悄 相当 于 “备用 状态 (saved state)”, CHARER 
id: 在 需要 的 时 候 ， 匹 配 可 以 从 这 里 重新 开始 尝试 。 它 们 保存 了 两 个 位 置 ， 正则 表达 式 中 
的 位 置 ， 和 未 尝试 的 分 支 在 字符 串 中 的 位 置 。 因 为 它 是 NFA 匹配 的 基础 ， 我 们 需要 再 看 一 
遍 某 些 已 经 出 现 过 的 简单 但 详细 的 例子 ， 说 明 这 些 状 态 的 意义 。 如 果 你 觉得 现 有 的 内 容 都 
不 难 懂 ， 请 继续 阅读 。 


| 
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未 进行 回溯 的 匹配 


来 看 个 简单 的 例子 ， 用 ab?cj 匹配 abc, 'ai 匹配 之 后 ， 匹 配 的 当前 状态 如 下 : 


f 
fa be’ a b?c; 
à a 


现在 轮 到 b?, 了 ， 正 则 引擎 需要 决定 : 是 需要 尝试 bI, TERE? 因为 ?是 匹配 优先 的 ， 
它 会 尝试 匹配 。 但 是 ， 为 了 确保 在 这 个 尝试 最 终 失 败 之 后 能 够 恢复 ， 引 擎 会 把 : 


‘a bc’ | ab? E! 


添加 到 备用 状态 序列 中 。 也 就 是 说 ， 稍 后 引擎 可 以 从 下 面 的 位 置 继续 匹配 ， 从 正则 表达 式 
中 的 b? 之 后 , 字符 串 的 b 之 前 (也 就 是 当前 的 位 置 ) 匹配 。 这 实际 上 就 是 跳 过 "b, 的 匹配 ， 
而 问号 容许 这 样 做 。 


引擎 放下 面包 屑 之 后 ， 就 会 继续 向 前 ， 检 查 "bj。 在 示例 文本 中 ， 它 能 够 匹配 ， 所 以 新 的 当 
前 状态 变 为 


T - 
‘ab c’ ab? ,Cl 


最 终 的 ,也 能 成 功 匹 配 ， 所 以 整个 匹配 完成 。 备 用 状态 不 再 需要 了 ， 所 以 不 再 保存 它们 。 


进行 了 回溯 的 匹配 


如 果 需 要 匹配 的 文本 是 “ac' ,在 尝试 'bj 之 前 ， 一 切 都 与 之 前 的 过 程 相同 。 显 然 ， 这 次 "bj 
无 法 匹配 。 也 就 是 说 ， 对 …?, 进 行 尝试 的 路 走 不 通 。 因 为 有 一 个 备用 状态 ， 这 个 “局 部 匹 
配 失败 ”并 不 会 导致 整体 匹配 失败 。 引 擎 会 进行 回 斋 ， 也 就 是 说 ， 把 “当前 状态 ”切换 为 
最 近 保 存 的 状态 。 在 本 例 中 ， 情 况 就 是 : 


F 
‘a c’ ab? Ke 


在 pb 尝试 之 前 保存 的 尚未 尝试 的 选项 。 这 时 候 ，c, 可 以 匹配 <， 所 以 整个 匹配 宣告 完成 。 
不 成 功 的 匹配 


现在 , 我 们 用 同样 的 表达 式 匹配 “abx'。 在 尝试 b 以 前 ， 因 为 存在 问号 ， 保 存 了 这 个 备用 
状态 : 


‘a bx lab? Ke 
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bl 能够 匹配 , 但 这 条 路 往 下 却 走 不 通 了 , 因为 'cj 无 法 匹配 x。 于 是 引擎 会 回溯 到 之 前 的 状 
A, AE bA “ci 来 匹配 。 显 然 ， 这 次 测试 也 失败 了。 如果 还 有 其 他 保存 的 状态 ， 回 渊 会 
继续 进行 ， 但 是 此 时 不 存在 其 他 状态 ， 在 字符 串 中 当前 位 置 开 始 的 整个 匹配 也 就 宣告 失败 。 
事情 到 此 结束 了 吗 ? 没有 。 传 动 装置 会 继续 “在 字符 串 中 前 行 ， 再 次 尝试 正则 表达 式 ”， 这 
可 能 被 想象 为 一 个 伪 回 调 (pseudo-backtrack)。 匹 配 重 新 开始 于 : 


‘a bX ab?c) 
A A 


从 这 里 重新 开始 整个 匹配 ， 如 同 之 前 一 样 ， 所 有 的 道路 都 走 不 通 。 接 下 来 的 两 次 (从 ab x 
到 abx,) 都 告 失败 ， 所 以 最 终 会 报告 匹配 失败 。 


忽略 优先 的 匹配 


现在 来 看 最 开始 的 例子 , 使 用 忽略 优先 匹配 量词 , 用 'ab??ci 来 匹配 “abc" 。al 匹 配 之 后 的 
状态 如 下 : 


‘a be’ ‘a.b??c) 


接 下 来 轮 到 b??,， 引 擎 需要 进行 选择 : 尝试 匹配 b, 还 是 忽略 ? 因为 ?? 是 忽略 优先 的 ， 它 
会 首先 尝试 忽略 ， 但 是 ， 为 了 能 够 从 失败 的 分 支 中 人 恢复， 引擎 会 保存 下 面 的 状态 ; 


f 
fa be’ a be) 


到 备用 状态 列表 中 。 于 是 ， 引 擎 稍 后 能 够 用 正则 表达 式 中 的 b 来 尝试 匹配 文本 中 的 b (我 
们 知道 这 能 够 匹配 ， 但 是 正则 引擎 不 知道 ， 它 甚至 都 不 知道 是 否 会 要 用 到 这 个 备用 状态 ) 。 
状态 保存 之 后 ， 它 会 继续 向 前 ， 沿 着 忽略 匹配 的 路 走 下 去 : 


“a be’ 'ab?? .Cl 


‘cl 无 法 匹配 “pb ， 所 以 引擎 必须 回调 到 之 前 保存 的 状态 : 


‘ , j 
a bc a be; 


显然 , 此 时 匹配 可 以 成 功 , 接 下 来 的 c, 匹配 “c"。 于 是 我 们 得 到 了 与 使 用 匹配 优先 的 ab?c， 
同样 的 结果 ， 虽 然 两 者 所 走 的 路 不 相同 。 


it 
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回溯 与 匹配 优先 


Backtracking and Greediness 


如 果 工 具 软 件 使 用 的 是 NFA 正则 表达 式 主导 的 回 滴 引 擎 ， 理 解 正则 表达 式 的 回溯 原理 就 成 
了 高 效 完成 任务 的 关键 。 我 们 已 经 看 到 '?, 的 匹配 优先 和 '??; 的 忽略 优先 是 如 何 工作 的 ， 现 
在 来 看 星 号 和 加 号 。 


星 号 、 加 号 及 其 回溯 


如 果 认 为 'x* 基本 等 同 于 'x?x?x?x?x?x?…1 (或 者 更 确切 地 说 是 "(x (x (x(x…?)?)?)?)?)1) 

( 注 5)， 那 么 情况 与 之 前 没有 大 的 差别 。 每 次 测试 星 号 作用 的 元 素 之 前 ， 引 擎 都 会 保存 一 
个 状态 ， 这 样 ， 如 果 测 试 失败 (或 者 测试 进行 下 去 遭遇 失败 )， 还 能 够 从 保存 的 状态 开始 匹 
配 。 这 个 过 程 会 不 断 重复 ， 直 到 包含 星 号 的 尝试 完全 失败 为 止 。 


所 以 ,如果 用 ' 00-9]+4 来 匹配 “a*1234.num" ，[0-9]) 遇 到 4 之 后 的 空格 无 法 匹配 ， 而 此 时 
加 号 能 够 回溯 的 位 置 对 应 了 四 个 保存 的 状态 : 


a 1 234 num 
a 12 34 num 
a 123 4 num 
a 1234 num 


也 就 是 说 ， 在 每 个 位 置 , [0-9], 的 尝试 都 代表 一 种 可 能 。 在 '[0-911 遇 到 空格 匹配 失败 时 ， 
引擎 回溯 到 最 近 保 存 的 状态 (也 就 是 最 下 面 的 位 置 )， 选 择 正则 表达 式 中 的 '[0-9]+ ,和 文 
本 中 的 “a*1234 num’。 当 然 ， 到 此 整个 正则 表达 式 已 经 结束 ， 所 以 我 们 知道 ， 整 个 匹配 宜 
告 完成 。 


请 注意 ,'a- ,1234'num” 并 不 在 列表 中 , 因为 加 号 限定 的 元 素 至 少 要 匹配 一 次 ， 这 是 必要 条 
件 。 那么 , 如 果 正 则 表达 式 是 “50-9]*, 这 个 状态 会 保存 吗 ? (提示 : 这 个 问题 得 动 点 脑筋 ) 。 
要 知道 答案 ， 依 请 翻 到 下 一 页 。 


重新 审视 更 完整 的 例子 


有 了 更 详细 的 了 解 之 后 ， 我 们 再 来 看 看 第 152 页 的 “.*([0-9] [0-9]); 的 例子 。 这 一 次 ， 
我 们 不 是 只 用 “匹配 优先 ” PUR ASS mee: 我 们 能 够 根据 NFA 的 匹 
配 机 制 做 出 精确 解释 。 


以 “ca*95472:UsA” 为 例 。 在 “.*! 成 功 匹 配 到 字符 串 的 末尾 时 ， 星 号 约束 的 点 号 匹配 了 13 


注 5; 作为 比较 ， 请 记 住 DFA 并 不 关心 表达 式 的 形式 ， 对 DFA 来 说 ， 这 3 个 例子 是 无 差别 的 。 


iff 
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个 字符 ， 同 时 保存 了 许多 备用 状态 。 这 些 状态 表明 稍 后 的 匹配 开始 的 位 置 : 在 正则 表达 式 
中 是 “^.*，([0-9] [0-9}),， 在 字符 串 中 则 是 点 号 每 次 匹配 时 保存 的 备用 状态 。 


现在 我 们 已 经 到 了 字符 串 的 末尾 ， 并 把 控制 权 交 给 第 一 个 [0-9],， 显 然 这 里 的 匹配 不 能 成 
功 。 没 问题 ， 我 们 可 以 选择 一 个 保存 的 状态 来 进行 尝试 (实际 上 保存 了 许多 的 状态 )。 现 在 
回 滴 开 始 ， 把 当前 状态 设置 为 最 近 保存 的 状态 ， 也 就 是 '.*| 匹配 最 后 的 A 之 前 的 状态 。 名 
RS (或 者 ， 如 果 你 愿意 ， 可 以 使 用 “交还 ") 这 个 匹配 ， 于 是 有 机 会 用 '[0-9] 匹配 这 个 A, 
但 这 同样 会 失败 。 


这 种 “回潮 -尝试 ”的 过 程 会 不 断 循环 ， 直 到 引擎 交还 2 为 止 , 在 这 里 , 第 一 个 (0-9), 可 以 
匹配 。 但 是 第 二 个 [0-9] J 仍然 无 法 匹配 ,所 以 必须 继续 回溯 ,现在 ,之 前 尝试 中 第 一 个 '[0-9]) 
是 否 匹 配 与 本 次 尝试 并 无 关系 了 ， 回 漳 机 制 会 把 当前 的 状态 中 正则 表达 式 内 的 对 应 位 置 设 
置 到 第 一 个 '[0-9] ,以 前 。 我 们 看 到 ， 当前 的 回溯 同样 会 把 字符 串 中 的 位 置 设置 到 7 以 前 ， 
所 以 第 一 个 [0-9] 可 以 匹配 ， 而 第 二 个 "0-9] 也 可 以 (匹配 2)。 所 以 ， 我 们 得 到 一 个 匹 
配 结果 “ca'95472,*USaA " ，、$1 得 到 72。 





需要 注意 的 是 : 第 一 ， 回 溯 机 制 不 但 需要 重新 计算 正则 表达 式 和 文本 的 对 应 位 置 ， 也 需要 
维护 括号 内 的 子 表达 式 所 匹配 文本 的 状态 。 在 匹配 过 程 中 ， 每 次 回溯 都 把 当前 状态 中 正则 
表达 式 的 对 应 位 置 指向 括号 之 前 ， 也 就 是 “^.*， (10-9} {0-91),。 在 这 个 简单 的 例子 中 ， 所 
以 它 等 价 于 '^.*, (0-9) [0-9],， 因 此 我 说 “使 用 第 一 个 [0-9] 之 前 的 位 置 "。 然 而 ， 回 漳 对 
括号 的 这 种 处 理 ， 不 但 需要 同时 维护 $1 的 状态 ， 也 会 影响 匹配 的 效率 。 

最 后 需要 注意 的 一 点 也 许 读 者 早 就 了 解 : 由 星 号 (或 其 他 任何 匹配 优先 量词 ) 限定 的 部 分 
不 受 后 面 元 素 影 响 ,而 只 是 匹配 尽 可 能 多 的 内 容 。 在 我 们 的 例子 中 ，. “在 点 号 匹配 失败 之 


前 , 完全 不 知道 , 到 底 应 该 在 哪个 数字 或 者 是 其 他 什么 地 方 停 下 来 。 在 “.*([0-91+) 1 的 例 
子 中 我 们 看 到 , '(0-9)+, 只 能 匹配 一 位 数字 (7153), 


关于 匹配 优先 和 回溯 的 更 多 内 容 
More About Greediness and Backtracking 


NFA 和 DFA 都 具备 许多 匹配 优先 相关 的 特性 (也 从 中 获 益 )。(DFA 不 支持 忽略 优先 ， 所 以 
我 们 现在 只 关注 匹配 优先 ) 。 我 将 考察 两 种 引擎 共同 支持 的 匹配 优先 特性 ， 但 只 会 用 NFA 
来 讲解 。 这 些 内 容 对 DFA 也 适用 ， 但 原因 与 NFA 不 同 。DFA 是 匹配 优先 的 ， 使 用 起 来 很 
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测试 答案 


4 162 页 测试 的 答案 

如 果 用 [0-9] 上 匹配 “a'1234'num  ， 备 用 状态 是 否 包括 “a' 1234-num”? 
答案 是 否定 的 。 之 所 以 提 这 个 问题 ， 是 因为 这 种 错误 很 常见 。 记 得 吗 ， 由 星 号 限定 的 
部 分 总 是 能 够 匹配 。 如 果 整 个 表达 式 都 由 星 号 控制 ， 它 就 能 够 匹配 任何 内 容 。 在 字符 
事 的 开始 位 置 ， 传 动机 构 对 引擎 进行 第 一 次 尝试 时 的 状态 ， 当 然 算 匹 配 成 功 。 在 这 种 
情况 下 ， 正 则 表达 式 匹 配 “a'1234*num ， 而 且 在 此 处 结尾 它 根本 没有 触及 到 那 
些 数 字 。 

如 果 没 答对 也 不 要 紧 ， 因 为 这 种 情况 还 是 有 可 能 发 生 的 。 如 果 在 表达 式 中 ，[0-9j*i 
之 后 还 出 现 了 某 些 元 素 ， 因 为 它们 的 存在 ， 引 擎 在 达到 下 面 状态 之 前 无 法 获得 全 局 匹 








方便 ， 这 一 点 我 们 只 需要 记 住 就 够 了 ， 而 且 介 绍 起 来 也 很 乏味 。 相 反 ，NFA 的 匹配 优先 就 
很 值得 一 谈 ， 因 为 NFA 是 表达 式 主导 的 ， 所 以 匹配 优先 的 特性 能 产生 许多 神奇 的 结果 。 除 
TERRI, NFA 还 提供 了 其 他 许多 特性 ， 比 如 环视 、 条 件 判断 (conditions)、 反 向 引用 ， 
以 及 固化 分 组 。 最 重要 的 是 NFA 能 让 使 用 者 直接 操控 匹配 的 过 程 ， 如 果 运 用 得 当 ， 这 会 带 
来 很 大 的 方便 ， 但 也 可 能 带 来 某 些 性 能 问题 (具体 见 第 6 章 )。 


不 考虑 这 些 差异 的 话 ， 匹 配 的 结果 通常 是 相通 的 。 我 介绍 的 内 容 适 用 于 两 种 引擎 ,除了 使 
用 表达 式 主导 的 NFA 引擎 。 读 完 本 章 ， 读 者 会 明白 ， 在 什么 情况 下 两 种 引擎 的 结果 会 不 一 
样 ， 以 及 为 什么 会 不 一 致 。 


匹配 优先 的 问题 
Problents of Greediness 


在 上 例 中 已 经 看 到 ，. ”经 常会 匹配 到 一 行文 本 的 末尾 ( 注 6), KEAH'.* 匹配 时 只 从 自 
身 出 发 ， 匹 配 尽 可 能 多 的 内 容 ， 只 有 在 全 局 匹配 需要 的 情况 下 才 会 “被 迫 ”交还 …- 些 字符 。 


£6: 如 果 工 具 软 件 或 匹配 模式 设置 了 点 号 通 配 模式 , '.*| 能 够 匹配 包含 多 行 数据 的 字 和 检 事 ， 包 
含 所 有 的 还 辑 行 ， 直 到 整个 字符 串 的 末尾 。 


HW 
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有 些 时 候 问题 很 严重 。 来 看 用 一 个 匹配 双 引 号 文本 的 例子 。 读 者 首先 想到 的 可 能 是 “.*"， 
那么 ， 请 运用 我 们 刚刚 学 到 的 关于 .* 的 知识 ， 猜 一 猜 用 它 匹配 下 面 文本 的 结果 ，; 

The name "McDonald's" is said "makudonarudo" in Japanese. 
Rie SCAR, AREAS AM, AR) “Su” AR. ERFIN] 
号 匹配 之 后 ，.*) 能够 匹配 任何 字符 ,所 以 它 会 一 直 匹 配 到 字符 串 的 末尾 。 为 了 让 最 后 的 双 
引号 能 够 匹配 ，. ”会 不 断交 还 字符 (或 者 ， 更 确切 地 说 ， 是 正则 引擎 强迫 它 回 退 ) ， 直 到 
满足 为 小 。 最 后 ， 这 个 正则 表达 式 匹 配 的 结果 就 是 : 


The name "McDonald's" is said "makudonarudo"” in Japanese. 


这 显然 不 是 我 们 期 望 的 结果 。 我 之 所 以 提醒 读者 不 要 过 分 依赖 .*,， 这 就 是 原因 之 一 ， 如 果 
不 注意 匹配 优先 的 特性 ， 结 果 往 往 出 乎 意料 。 





那么 ， 我 们 如 何 能 够 只 取得 "McDponald's" 呢 ? 关键 的 问题 在 于 要 认识 到 ， 我 们 希望 匹配 的 
不 是 双 引 号 之 间 的 “任何 文本 ”, 而 是 “ 除 双 引号 以 外 的 任何 文本 ”。 ANA ic 取代".*,， 
就 不 会 出 现 上 面 的 问题 。 


使 用 “"[^"]*"; 时 ， 正 则 引擎 的 基本 匹配 过 程 跟 上 面 是 一 样 的 。 第 一 个 双 引 号 匹配 之 后 ， 
[^"] +) SUAS a RES AST. ERB, BLE McDonald's， 因 为 '[^"] | 无 法 匹配 之 后 
的 双 引 号 。 此 时 ， 控 制 权 转移 到 正则 表达 式 末 尾 的 “";。 而 它 刚 好 能 够 匹配 ， 所 以 获得 全 局 
匹配 ; 


The name "McDonald's", is said "makudonarudo" in Japanese. 


事实 上 ， 可 能 还 存在 一 种 出 乎 读者 预料 的 情况 , 因为 在 大 多 数 流派 中 ，!“ "] ,能 够 匹配 换行 
符 ， 而 点 号 则 不 能 。 如 果 不 想 让 表达 式 匹 配 换行 符 ， 可 以 使 用 {^"\n]。 





多 字符 “引文 


Multi-Character “Quotes” 


第 ! 章 出 现 了 对 HTML tag 的 匹配 ， 例 如 ， 浏 览 器 会 把 <B>very</B> 中 的 “very” 演 染 为 粗 
体 。 对 <B>…</B> 的 匹配 尝试 看 起 来 与 对 双 引 号 匹配 的 情形 很 相似 ， 只 是 “ 双 引 号 ”在 这 里 
成 了 多 字符 构成 的 <B> 和 </B>。 与 双 引 号 字符 串 的 例子 一 样 ， 使 用 “.*, 匹配 多 字符 “3 引文 ” 
也 会 出 错 : 


--<B>Billions</B> and <B>Zillions</B> of suns::: 


'<B>.*</B>! 中 匹配 优先 的 '.*, 会 一 直 匹 配 该 行 结尾 的 字符 , 回溯 只 会 进行 到 '</B>; 能 够 匹 
配 为 止 ， 也 就 是 最 后 一 个 </B> ， 而 不 是 与 匹配 开头 的 <B>, 对 应 的 </B> 
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不 幸 的 是 ， 因 为 结束 tag 不 是 单个 字符 ， 所 以 不 能 用 之 前 的 办 法 ， 也 就 是 “排除 型 字符 组 ” 
来 解决 ， 即 我 们 不 能 期 望 用 '<B>[^</B>] *</B>, 解决 问题 。 字 符 组 只 能 代表 单个 字符 ， 而 
我 们 需要 的 '</B>, 是 一 组 字符 。 请 不 要 被 '[^</B>] ,迷惑 , 它 只 是 表示 一 个 不 等 于 <、>、/、 
8 的 字符 , SF'S <B, 而 这 显然 不 是 我 们 想 要 的 “ 除 </B> 结 构 之 外 的 任何 内 容 ”( 当 
然 ， 如 果 使 用 环视 功能 ,我们 可 以 规定 ,在 某 个 位 置 不 应 该 匹配 </B>,， 下 一 节 会 出 现 这 种 
应 用 )。 


使 用 忽略 优先 量词 


Using Lazy Quantifiers 
上 面 的 问题 之 所 以 会 出 现 ， 原 因 在 于 标准 量词 是 匹配 优先 的 。 某 些 NFA 支持 忽略 优先 的 量 
词 (7141), +? 就 是 与 * 对 应 的 忽略 优先 量词 。 我 们 用 '<B>.*?</B>, 来 匹配 : 


--<B>Billions</B> and <B>Zillions</B> of suns… 


开始 的 <B>, 匹配 之 后 ,'.*?, 首先 决定 不 需要 匹配 任何 字符 ， 因 为 它 是 忽略 优先 的 。 于 是 ， 
控制 权 交 给 后 面 的 '<, 符 号 : 





‘ « . , j 
"<B> Billions: <B>. *? </B> 


此 时 !<, 无 法 匹配 ， 所 以 控制 权 交 还 给 !.*? ,， 因 为 还 有 未 尝试 过 的 匹配 可 能 (事实 上 能 名 
进行 多 次 匹配 尝试 )。 它 的 匹配 尝试 是 步步为营 的 (begrudgingly) ， 先 用 点 号 来 匹配 … 
<a>Billions… 中 带 下 夯 线 的 8。 此 时 ，*? 又 必须 选择 ， 是 继续 尝试 匹配 ， 还 是 忽略 ?因为 
它 是 忽略 优先 的 , 会 首先 选择 忽略 。 TRN < 仍然 无 法 匹配 , 所 以 7.*?) 必须 继续 尝试 未 
匹配 的 分 支 。 在 这 个 过 程 重复 8 次 之 后 , '.*?, 最 终 匹 配 了 Billions， 此 时 ， 解 下 来 的 '<， 
(以 及 整个 <7B>)) 都 能 匹配 ; 


-<B>Billions</B> and <B>Zillions</B> of suns::: 


所 以 我 们 知道 了 ， 星 号 之 类 的 匹配 优先 量词 有 时 候 的 确 很 方便 ， 但 有 时 候 也 会 带 来 大 麻烦 。 
这 时 候 ， 忽 略 优先 的 量词 就 能 派 上 用 场 了 ， 因 为 它们 做 到 其 他 办 法 很 难 做 到 (甚至 无 法 做 
到 ) 的 事情 。 当 然 ， 缺 乏 经 验 的 程序 员 也 可 能 错误 地 使 用 忽略 优先 量词 。 事 实 上 ， 我 们 刚 
刚 做 的 或 许 就 不 正确 。 如 果 用 <B>.*?</B>! 来 匹配 : 





--<B>Billions and <B>Zillions</B> of suns- 





结果 如 上 图 ， 虽 然 我 假设 匹配 的 结果 取决 于 具体 的 需求 ， 但 我 仍然 认为 ， 这 种 情况 下 的 结 
果 不 是 用 户 期 望 的 。 不 过 ，.*?! 必然 会 匹配 Zillions 左边 的 <B> ， 一 直到 </B>。 
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这 个 例子 很 好 地 说 明了 ， 为 什么 通常 情况 下 ， 忽 略 优先 量词 并 不 是 排除 类 的 完美 替身 。 在 
“.*"| 的 例子 中 ,使 用 [^ "1 替换 点 号 能 避免 跨越 引号 的 匹配 一 一 这 正 是 我 们 希望 实现 的 
功能 。 


如 果 支 持 排除 环视 (了 133) ， 我 们 就 能 得 到 与 排除 型 字符 组 相当 的 结果 。 比 如 ，(?!<B>)， 
这 个 测试 , 只 有 当 <B> 不 在 字符 串 中 的 当前 位 置 时 才能 成 功 。 这 也 是 '<B>.*?</B>, 中 的 点 号 
期 望 匹配 的 内 容 ， 所 以 把 点 号 改 为 ((?!<B>) .) ,得 到 的 正则 表达 式 ， 就 能 准确 匹配 我 们 期 
AMAA. 把 这 些 综合 起 来 , 结果 有 点 儿 难 看 懂 , 所 以 我 选用 带 注释 的 宽松 排列 模式 (111) 
来 讲解 : 


<B> # 匹配 开头 的 <B> 

( # 然后 只 匹配 尽 可 能 少 的 内 容 
(?! <B> ) # 如 果 不 是 <B>... 
l # 1... 任何 字符 都 可 以 

Ir? # 

</B> # ... 直到 遇 到 结束 标记 


使 用 了 环视 功能 之 后 ， 我 们 可 以 重新 使 用 普通 的 匹配 优先 量词 ， 这 样 看 起 来 更 清楚 : 


匹配 开头 的 <B> 

然后 匹配 尽 可 能 多 的 内 容 

如 果 不 是 <B>， 也 不 是 </B> . 

. . .任何 字符 都 可 以 
(现在 是 匹配 优先 的 量词 ) 
<ANNO> ... 直到 结束 分 陋 罕 匹配 


现在 ， 环 视 功能 会 禁止 正则 表达 式 的 主体 (main body) 匹配 <B> 和 </B> 之 外 的 内 容 ， 这 也 
是 我 们 之 前 试图 用 忽略 优先 量词 解决 的 问题 ， 所 以 现在 可 以 不 用 忽略 优先 功能 了 。 这 个 表 
达 式 还 有 能 够 改进 的 地 方 ， 我 们 将 在 第 6 章 关 于 效率 的 讨论 中 看 到 它 (7270), 


<B> 
( 
(?! </? B>) 


)* 


</B> 


e+e t te +H + 


匹配 优先 和 忽略 优先 都 期 望 获得 匹配 


Greediness and Laziness Always Favor a Match 


回忆 一 下 第 2 章 中 显示 价格 的 例子 (51)。 我 们 会 在 本 章 的 多 个 地 方 仔细 检查 这 个 例子 ， 
所 以 我 先 重申 一 下 基本 的 问题 : 因为 浮 点 数 的 显示 问题 ,“1.625” 或 者 “3.00” 有 时 候 会 变 
成 “1.62500000002828” 和 “3.00000000028822”。 为 解决 这 个 问题 ， 我 使 用 : 


Sprice =~ s/(\.\d\d(1-9) ?) \d*/$1/; 


来 保存 Sprice 小 数 点 后 头 两 到 三 位 十 进 制 数字 。\.\a\d 匹 配 最 开始 两 位 数字 , 而 (1-9) 2: 
用 来 匹配 可 能 出 现 的 不 等 于 零 的 第 三 个 数字 。 
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然后 我 写 道 


到 现在 ， 我 们 能 够 匹配 的 任何 内 容 都 是 希望 保留 的 ， 所 以 用 括号 包围 起 来 ， 作 为 $1 捕 
获 。 然 后 就 能 在 replacement 字符 串 中 使 用 $1。 如 果 这 个 正则 表达 式 能 够 匹配 的 文本 就 
等 于 $1， 那 么 我 们 就 是 用 一 个 文本 取代 它 本 身 一 一 这 没有 多 少 意 义 。 然 而 ， 我 们 继续 
匹配 $1 括号 之 外 的 部 分 。 在 替代 字符 串 中 它们 并 不 出 现 , 所 以 结果 就 是 它们 被 删 掉 了 。 
在 本 例 中 ,“ 要 删 掉 ”的 文本 就 是 任何 多 余 的 数字 ， 也 就 是 正则 表达 式 中 末尾 的 Na 
匹配 的 部 分 。 


到 现在 看 起 来 一 切 正常 ， 但 是 ， 如 果 sprice 的 数据 本 身 规范 格式 ， 会 出 现 什么 问题 呢 ? 如 
果 $price 是 27.625, 那么 人 \.\avaf1-9]? 能够 匹配 整个 小 数 部 分 。 因 为 人 da*, 无 法 匹配 任 
何 字符 ， 整 个 替换 就 是 用 “.625” 替 换 “.525” 一 一 相当 于 白费 工夫 。 


结果 当然 是 我 们 需要 的 ， 但 是 否 存在 更 有 效率 的 办 法 ， 只 进行 真正 必要 的 替换 (也 就 是 ， 
FAY nd 确实 能 够 匹配 到 某 些 字符 的 时 候 才 替换 ) WE? 当然 ,我 们 知道 怎样 表示 “至 少 
一 位 数字 ”! REEN 替换 为 、\d+, 就 好 了 : 


$price =~ s/(\.\d\d[1-9]?) \d+/$1/ 


对 于 “1.62500000002828” 这 样 复杂 的 数字 ， 正 则 表达 式 仍然 有 效 ， 但 是 对 于 “9.43” 这 种 
数字 ,末尾 的 da+, 不 能 匹配 ， 所 以 不 会 替换 。 所 以 ， 这 是 个 了 不 起 的 改动 ， 对 吗 ? 不 ! 如 
果 要 处 理 的 数字 是 27.625, 情况 如 何 呢 ? 我 们 希望 这 个 数字 能 够 被 忽略 , 但 是 这 不 会 发 生 。 
请 仔细 想 想 27.625 的 匹配 过 程 ， 尤 其 是 表达 式 如 何 处理 “5” 这 个 数字 。 


知道 答案 之 后 ， 这 个 问题 就 变 得 非常 简单 了 。 在 \(\.\a\a[1-9]?)\d+j 匹配 27.625 之 后 ， 
A\d+i 无 法 匹配 。 但 这 并 不 会 影响 整个 表达 式 的 匹配 ， 因 为 就 正则 表达 式 而 言 ， 由 [1-9] 
匹配 “5” 只 是 可 选 的 分 支 之 一 ， 还 有 一 个 备用 状态 尚未 尝试 。 它 容许 [1-9]? 匹配 一 个 空 
字符 ,而 把 5 留 给 至 少 必 须 匹 配 一 个 字符 的 人 ar,。 于 是 ,我 们 得 到 的 是 错误 的 结果 : .625 
被 替换 成 了 .62。 


如 果 '[1-91?! 是 忽略 优先 的 又 如 何 呢 ? 我 们 会 得 到 同样 的 匹配 结果 ， 但 不 会 有 “ 先 匹 配 5 
再 回 诸 ”的 过 程 ， 因 为 忽 赂 优先 的 [1-91??) 首 先 会 忽略 尝试 匹配 的 选项 。 所 以 ， 忽 略 优 先 
量词 并 不 能 解决 这 个 问题 。 


匹配 优先 、 忽 略 优先 和 回溯 的 要 旨 


The Essence of Greediness, Laziness, and Backtracking 





之 前 的 章节 告诉 我 们 ， 正 则 表达 式 中 的 某 个 元 素 ， 无 论 是 匹配 优先 ， 还 是 忽略 优先 ， 都 是 
为 全 局 匹配 服务 的 ， 在 这 一 点 上 (对 前 面 的 例子 来 说 ) 它们 没有 区 别 。 如 果 全 局 匹配 需要 ， 
无 论 是 匹配 优先 〈 或 是 忽略 优先 ) ， 在 遇 到 “本 地 匹配 失败 ”时 ， 引 擎 都 会 回归 到 备用 状态 
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(按照 足迹 返回 找到 面包 悄 )， 然 后 尝试 尚未 尝试 的 路 径 。 无 论 匹 配 优 先 还 是 忽略 优先 ， 只 
要 引擎 报告 匹配 失败 ， 它 就 必然 尝试 了 所 有 的 可 能 。 


测试 路 径 的 先后 顺序 , 在 匹配 优先 和 忽略 优先 的 情况 下 是 不 同 的 (这 就 是 两 者 存在 的 理由 )， 
但 是 ， 只 有 在 测试 完 所 有 可 能 的 路 径 之 后 ， 才 会 最 终 报告 匹配 失败 。 


相反 ， 如 果 只 有 一 条 可 能 的 路 径 ， 那 么 使 用 匹配 优先 量词 和 忽略 优先 量词 的 正则 表达 式 都 
能 找到 这 个 结果 ， 只 是 他 们 尝试 路 径 的 次 序 不 同 。 在 这 种 情况 下 ， 选 择 匹配 优先 还 是 忽略 
优先 , 并 不 会 影响 匹配 的 结果 , 受 影 响 的 只 是 引擎 在 达到 最 终 匹 配 之 前 需要 尝试 的 次 数 (这 
是 关于 效率 的 问题 ， 第 6 章 将 会 谈 到 ) 。 


最 后 ， 如 果 存 在 不 止 一 个 可 能 的 匹配 结果 ， 那 么 理解 匹配 优先 、 忽 略 优 先 和 回调 的 读者 ， 
就 明白 应 该 如 何 选择 。" .*": 有 3 个 可 能 的 匹配 结果 : 


The name "McDonald's" s said "makudonarudo" in Japenese. 
oR rf 





我 们 知道 , 使 用 匹配 优先 星 号 的 “".*", 匹配 最 长 的 结果 , Te ARE SAY "2" OC 
配 最 短 的 结果 。 


占有 优先 量词 和 固化 分 组 


Possessive Quantifiers and Atomic Grouping 


上 一 页 中 “.525” 的 例子 展示 了 关于 NFA 匹配 的 重要 知识 ， 也 让 我 们 认识 到 ， 针 对 这 个 有 具 
体 的 例子 ， 考 虑 不 仔细 就 会 带 来 问题 。 针 对 某 些 流派 提供 了 工具 来 帮助 我 们 ， 但 是 在 接触 
它们 以 前 ， 必 须 彻 底 弄 明白 “匹配 优先 、 忽 略 优先 和 回潮 的 要 旨 ” 这 一 节 。 如 果 读 者 还 有 
不 明白 的 地 方 ， 请 务必 仔细 阅读 上 一 节 。 


那么 ， 仍 然 来 考虑 “.625” 的 例子 ， 想 想 我 们 真正 的 目的 。 我 们 知道 ， 如 果 匹 配 能 够 进行 
到 (\.\ad\a[l1-91?),\d+j 中 标记 的 位 置 , 我 们 就 不 希望 进行 回溯 ,也 就 是 说 , 我们 希望 的 
是 ， 如 果 可 能 ,“[1-9] ,能 够 一 个 字符 ， 果 真如 此 的 话 ， 我 们 不 希望 交还 这 个 字符 。 或 者 说 
的 更 直 白 一 些 就 是 ， 如 果 需 要 的 话 , 我 们 希望 在 '[1-9], 匹配 的 字符 交还 之 前 ,整个 表达 式 
就 匹配 失败 。( 这 个 正则 表达 式 匹配 “ .625” 时 的 问题 在 于 ， 它 不 会 匹配 失败 ， 而 是 进行 回 
调 ， 尝 试 其 他 备用 状态 )。 


那么 ， 如 果 我 们 能 够 避免 这 些 备用 状态 呢 (也 就 是 在 [1-9] 进 行 尝试 之 前 ， 放 弃 ?保存 的 
状态 , ) ? 如 果 没 有 退路 ,，[1-91 的 匹配 就 不 会 交还 。 而 这 就 是 我 们 需要 的 ! 但 是 ， 如 果 没 
有 了 这 个 备用 状态 会 发 生 什么 ?如 果 我 们 用 这 个 表达 式 来 匹配 “.5000” 了 呢 ? 此 时 (1-91) 
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不 能 匹配 ， 就 确实 需要 回 湖 ， 放 弃 [1-9],， 让 之 后 的 \a+, 能 够 匹配 需要 删除 的 数字 。 


听 起 来 ， 我 们 有 两 种 相反 的 要 求 ， 但 是 仔细 考虑 考虑 就 会 发 现 ， 我 们 真正 需要 的 是 ， 只 有 
在 某 个 可 选 元 素 已 经 匹配 成 功 的 情况 下 才 抛 弃 此 元 素 的 “忽略 "状态 。 也 就 是 说 ,如 果 [1-9]， 
能 够 成 功 匹 配 ， 就 必须 抛弃 对 应 的 备用 状态 ， 这 样 就 永远 也 不 会 回 退 。 如 果 正 则 表达 式 的 
流派 支持 固化 分 组 '(?>…)， (139)， 或 者 占有 优先 量词 [1-9]?+， (也 142)， 就 可 以 这 么 
做 。 首 先 来 看 固化 分 组 。 


用 (?>…) 实现 固化 分 组 


具体 来 说 ， 使 用 (?>…) ,的 匹配 与 正常 的 匹配 并 无 差别 ， 但 是 如 果 匹 配 进行 到 此 结构 之 后 
(也 就 是 ， 进 行 到 闭 括号 之 后 ) ， 那 么 此 结构 体 中 的 所 有 备用 状态 都 会 被 放弃 。 也 就 是 说 ， 
在 固化 分 组 匹配 结束 时 ， 它 已 经 匹配 的 文本 已 经 固化 为 一 个 单元 ， 只 能 作为 整体 而 保留 或 
放弃 。 括 号 内 的 子 表达 式 中 未 尝试 过 的 备用 状态 都 不 复 存在 了 ， 所 以 回溯 永远 也 不 能 选择 
其 中 的 状态 (至 少 是 ， 当 此 结构 匹配 完成 时 , “锁定 (locked in)” 在 其 中 的 状态 )。 


所 以 ， 让 我 们 来 看 '(\.\a\a(?>[1-91?))\a+J。 在 固化 分 组 内 ， 量 词 能 够 正常 工作 ， 所 以 
如 果 '[1-9], 不 能 匹配 ， 正 则 表达 式 会 返回 '? , 留 下 的 备用 状态 。 然 后 匹配 脱离 国 化 分 组 ， 
继续 前 进 到 、\a+,。 在 这 种 情况 下 ， 当 控制 权 离开 固化 分 组 时 ， 没 有 备用 状态 需要 放弃 (A 
为 在 固化 分 组 中 没有 创建 任何 备用 状态 )。 


如 果 '[1-9]; 能 够 匹配 ,匹配 脱 离 固化 分 组 之 后 , '? ;保存 的 备用 状态 仍然 存在 。 但 是 , 因为 
它 属 于 已 经 结束 的 固化 分 组 ， 所 以 会 被 抛弃 。 匹 配 “.625” 或 者 “.625000” 时 就 会 发 生 
这 种 情况 。 在 后 一 种 情况 下 ， 放 弃 那 些 状态 不 会 带 来 任何 麻烦 ， 因 为 "a+ 匹配 的 是 
“.625000", 到 这 里 正则 表达 式 已 经 完成 匹配 。 但 是 对 于 “ .625” 来 说 , AA ndn EAR 
配 ， 正 则 引擎 需要 回 滴 ， 但 回溯 又 无 法 进行 ， 因 为 备用 状态 已 经 不 存在 了 。 既 然 没 有 能 够 
回溯 的 备用 状态 ， 整 体 匹配 也 就 失败 ，“ .625” 不 需要 处 理 ， 而 这 正 是 我 们 期 望 的 。 


固化 分 组 的 要 旨 


从 第 168 页 开始 的 “匹配 优先 、 忽 略 优先 和 回溯 的 要 则 ”这 一 节 ， 说 明了 一 个 重要 的 事实 ， 
即 匹配 优先 和 忽略 优先 都 不 会 影响 需要 检测 路 径 的 本 身 ， 而 只 会 影响 检测 的 顺序 。 如 果 不 
能 匹配 ， 无 论 是 按照 匹配 优先 还 是 忽略 优先 的 顺序 ， 基 终 每 条 路 径 都 会 被 测试 。 
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然而 ， 固 化 分 组 与 它们 截然 不 同 ， 因 为 固化 分 组 会 放弃 某 些 可 能 的 路 径 。 根 据 具体 情况 的 
不 同 ， 放 弃 备 用 状态 可 能 会 导致 不 同 的 结果 : 


© BMG 如 果 在 使 用 备用 状态 之 前 能 够 完成 匹配 ， 固 化 分 组 就 不 会 影响 匹配 。 我 们 刚 
刚 看 过 “.625000” 的 匹配 。 全 局 匹配 在 备用 状态 尚未 起 作用 之 前 就 已 经 完成 。 


。 ”导致 匹配 失败 放弃 备用 状态 可 能 意味 着 ， 本 来 有 可 能 成 功 的 匹配 现在 不 可 能 成 功 了 。 
“6.25” 的 例子 就 是 如 此 。 


* ”改变 匹配 结果 在 某 些 情况 下 ， 放 弃 备 用 状态 可 能 得 到 不 同 的 匹配 结果 。 


。 ”加 快报 告 匹配 失败 的 速度 如 果 不 能 找到 匹配 对 象 , 放弃 备用 状态 可 能 能 让 正则 引擎 更 
快 地 报告 匹配 失败 。 先 做 个 小 测验 ， 然 后 我 们 来 谈 这 点 。 


4 小 测验 : (?>.*?)) 是 什么 意思 ? 它 能 匹配 什么 文本 ? 请 翻 到 下 页 查看 答案 。 


某 些 状 态 可 能 保留 在 匹配 过 程 中 ， 引 擎 退出 固化 分 组 时 ， 放 弃 的 只 是 固化 分 组 中 创建 的 状 
态 。 而 之 前 创建 的 状态 依然 保留 ， 所 以 ， 如 果 后 来 的 回溯 要 求 退回 到 之 前 的 备用 状态 ， 
化 分 组 部 分 匹配 的 文本 会 全 部 交还 。 


使 用 固化 分 组 加 快 匹配 失败 的 速度 我 们 一 眼 就 能 看 出 ,“^\w+ :无 法 匹配 “subject', 因为 
“Subject” 中 不 含 冒 号 ， 但 正则 引擎 必须 经 过 尝试 才能 得 到 这 个 结论 。 


第 一 次 检查 : ,时 ,\w+, 已 经 匹配 到 了 字符 串 的 结尾 , 保存 了 若干 状态 一 一 \w: 匹 配 的 每 个 
字符 ,都 对 应 有 “忽略 ”的 备用 状态 (第 一 个 除外 ， 因 为 加 号 要 求 至 少 匹 配 一 次 )。: 无 法 
匹配 字符 串 的 末尾 ， 所 以 正则 引擎 会 回溯 到 最 近 的 备用 状态 : 


. | la 
‘Subj ec t’ \w+ $] 


此 处 的 字符 是 “t',': ,仍然 无 法 匹配 。 于 是 回 滴 -测试 -失败 的 循环 会 不 断 发 生 ， 最 终 退 回 开 
始 的 状态 : 


á » kd TA è 
S ubject | \w+ :1 


此 处 仍然 无 法 匹配 成 功 ， 所 以 报告 整个 表达 式 无 法 匹配 。 


ti 
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测验 答案 


令 171 页 测试 的 答案 

'(?>.*?) J 会 苞 配 什么 ? 

它 永 远 无 法 匹配 任何 字符 。 充 其 量 它 只 能 算是 个 相当 复杂 的 正则 表达 式 ， 但 不 匹配 任 
何 字符 。.*?1 是 '.* | 的 忽略 优先 表示 ， 它 限定 的 是 一 个 点 号 ， 所 以 首选 的 分 支 就 是 息 
略 点 号 ， 把 匹配 点 号 的 状态 保留 下 来 备用 。 但 是 ， 这 个 保存 的 状态 马上 又 会 被 放弃 ， 
因为 匹配 退出 了 固化 分 组 ， 所 以 真正 尝试 的 只 有 和 忽略 点 号 的 分 支 。 总 是 被 忽略 的 东西 ， 
实际 上 相当 于 不 存在 。 





我 们 只 消 看 一 眼 就 能 知道 ， 所 有 的 回溯 都 是 白费 工夫 。 如 果 冒 号 无 法 匹配 最 后 的 字符 ， 那 
么 它 当然 无 法 匹配 + 交还 的 任何 字符 。 


既然 我 们 知道 , "w+ 匹配 结束 之 后 ， 从 任何 备用 状态 开始 测试 都 不 能 得 到 全 局 匹配 ， 就 可 
以 命令 正则 引擎 不 必 检 查 它 们 :'“~^(?>\w+);。 我 们 已 经 全 面 了 解 了 正则 表达 式 的 匹配 过 程 ， 
可 以 使 用 固化 分 组 来 控制 \w+; 的 匹配 ， 放 弃 备 用 的 状态 (因为 我 们 知道 它们 没有 用 )， 提 
高 效率 。 如 果 存 在 可 以 匹配 的 文本 ， 那 么 固化 分 组 不 会 有 任何 影响 ， 但 是 如 果 不 存在 能 够 
匹配 的 文本 ， 放 弃 这 些 无 用 的 状态 会 让 正则 引擎 更 快 地 得 出 无 法 匹配 的 结论 (先进 的 实现 
也 许 能 够 自动 进行 这 样 的 优化 ， 灾 251) 。 


我 们 将 在 第 6 章 看 到 (第 269 页 )， 固 化 分 组 非常 有 价值 ， 我 怀疑 它 可 能 会 成 为 最 常用 的 技 
巧 。 


占有 优先 量词 ，?+、*+、++ 和 {m,n}+ 


Possessive Quantifiers, ?+, ++, ++, and {n n}+ 


占有 优先 量词 与 匹配 优先 量词 很 相似 , 只 是 它们 从 来 不 交还 已 经 匹配 的 字符 。 我 们 在 “\w+， 
的 例子 中 看 到 ， 加 号 在 匹配 结束 之 前 创建 了 很 少 的 备用 状态 ， 而 占有 优先 的 加 号 会 直接 放 
弃 这 些 状态 (或 者 ,更 形象 地 说 ， 并 不 会 创造 这 些 状态 )。 


你 也 许 会 想 ， 占 有 优先 量词 和 固化 分 组 关系 非常 紧密 。 像 \w++ 这样 的 占有 优先 量词 与 
“(?>\w+) 1 的 匹配 结果 完全 相同 ， 只 是 写 起 来 更 加 方便 而 已 ( 注 7)。 使 用 占有 优先 量词 ， 


“(?>\w+) 2) LAB Ewe sy, (\. \A\a(2> [1-9] ?)) \dts BR '(\.\d\d [1-9] 24) *\ dss, 


注 7: 聪明 的 实现 方式 在 处 理 占 有 优先 量词 时 会 更 高 效 一 些 ， 字 250。 
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请 务必 区 分 (?>M) + 和 OCM 前 者 放弃 M 创建 的 备用 状态 , 因为 w 不 会 制造 任何 状态 ， 
所 以 这 样 做 没什么 价值 。 而 后 者 放弃 M 创造 的 未 使 用 状态 ， 这 样 做 显然 有 意义 。 


比较 (?>M) + 和" (?>M+), 显然 后 者 就 对 应 于 M, 但 如 果 表 达 式 很 复杂 ,例如 '(\\" 11^"]) 
*+j， 从 占有 优先 量词 转换 为 固化 分 组 时 大 家 往往 会 想到 在 括号 中 添加 “?> ”得 到 
“”(?>\W "1[^"]) 思 。 这 个 表达 式 或 许 有 机 会 实现 你 的 目的 ， 但 它 显然 不 等 于 那个 使 用 占有 
优先 量词 的 表达 式 ; 它 就 好 像 是 把 M++ 写作 '(?>M) + 一 样 。 正确 的 办 法 是 ， 去掉 表示 占有 
优先 的 加 号 ， 用 固化 分 组 把 余下 的 部 分 包括 起 来 : (?>(\\" 1[^"])*) 1。 


环视 中 的 回溯 


Hw Backtracking of Lookaround 


初 看 时 并 不 容易 认识 到 ， 环 视 ( 见 第 2M, 759) 与 固化 分 组 和 占有 优先 量词 有 紧密 的 联 
系 。 环 视 分 为 4 种 : HE (positive) 和 否定 型 (negative) ， 顺 序 环视 与 逆序 环视 。 它 们 
只 是 简单 地 测试 ， 其 中 表达 式 能 否 在 当前 位 置 匹配 后 面 的 文本 (顺序 环视 )， 或 者 前 面 的 文 
本 (逆序 环视 )。 


深入 点 看 ， 在 NFA 的 世界 中 包含 了 备用 状态 和 回 滴 ， 环 视 是 怎么 实现 的 ?环视 结构 中 的 子 
表达 式 有 自己 的 世界 。 它 也 会 保存 备用 状态 ， 进 行 必要 的 回 滴 。 如 果 整 个 子 表达 式 能 够 成 
功 匹 配 ， 结 果 如 何 呢 ?肯定 型 环视 会 认为 自己 匹配 成 功 ， 而 否定 环视 会 认为 匹配 失败 。 在 
任何 一 种 情况 下 ， 因 为 关注 的 只 是 匹配 存在 与 否 (在 刚才 的 例子 中 ,的确 存在 匹配 )， 此 匹 
配 尝试 所 在 的 “世界 "， 包 括 在 尝试 中 创造 的 所 有 备用 状态 ， 都 会 被 放弃 。 


如 果 环 视 中 的 子 表达 式 无 法 匹配 ， 结 果 如 何 呢 ? 因为 它 只 应 用 到 这 个 “世界 ”中 ， 所 以 回 
溯 时 只 能 选择 当前 环视 结构 中 的 备用 状态 。 也 就 是 说 ， 如 果 正 则 表达 式 发 现 ， 需 要 进一步 
回溯 到 当前 的 环视 结构 的 起 点 以 前 ， 它 就 认为 当前 的 子 表达 式 无 法 匹配 。 对 肯定 型 环视 来 
说 ， 这 就 意味 着 失败 ， 而 对 于 否定 型 环视 来 说 ， 这 意味 着 成 功 。 在 任何 一 种 情况 下 ， 都 没 
有 保留 备用 状态 (如 果 有 ， 那 么 子 表达 式 的 匹配 尝试 就 没有 结束 )， 自 然 也 谈 不 上 放弃 。 


所 以 我 们 知道 ， 只 要 环视 结构 的 匹配 尝试 结束 ， 它 就 不 会 留 下 任何 备用 状态 。 任 何 备 用 状 
态 和 例子 中 肯定 环视 成 功 时 的 情况 一 样 ， 都 会 被 放弃 。 我 们 在 其 他 什么 地 方 看 到 过 放弃 状 
态 ? 当然 是 固化 分 组 和 占有 优先 量词 。 


iji 
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用 肯定 环视 模拟 固化 分 组 


如 果 流 派 本 身 支持 固化 分 组 ， 这 么 做 可 能 有 点 多 此 一 举 ， 但 如 果 流 派 不 支持 固化 分 组 ， 这 
么 做 就 很 有 用 : 如 果 所 使 用 的 工具 支持 肯定 环视 , 同时 可 以 在 肯定 环视 中 使 用 捕获 括号 (大 
多 数 风格 都 支持 ， 但 也 有 些 不 支持 ，Tcl 就 是 如 此 )， 就 能 模拟 实现 固化 分 组 和 占有 优先 量 
ia], '(?>regex) : 可 以 用 '(?= (regex) ) \11 来 模拟 。 举例 来 说 , EGER ' 0 2>\we) ATO (we) ) 


\1:jJ 


环视 中 的 \w+! 是 匹配 优先 的 , 它 会 匹配 尽 可 能 多 的 字符 ,也 就 是 整个 单词 。 因 为 它 在 环视 
结构 中 ， 当 环视 结束 之 后 ， 备 用 状态 都 会 放弃 (和 固化 分 组 一 样 )。 但 与 固化 分 组 不 一 样 的 
是 ， 虽然 此 时 确实 捕获 了 这 个 单词 ， 但 它 不 是 全 局 匹配 的 一 部 分 (这 就 是 环视 的 意义 )。 这 
里 的 关键 就 是 ， 后 面 的 \1, 捕获 的 就 是 环视 结构 捕获 的 单词 ， 而 这 当然 会 匹配 成 功 。 在 这 
里 使 用 \1; 并非 多 此 一 举 ， 而 是 为 了 把 匹配 从 这 个 单词 结束 的 位 置 进 行 下 去 。 


这 个 技巧 比 真正 的 固化 分 组 要 慢 一 些 , 因为 需要 额外 的 时 间 来 重新 匹配 \1, 的 文本 。 不过， 
因为 环视 结构 可 以 放弃 备用 状态 ， 如 果 冒 号 无 法 匹配 ， 它 的 失败 会 来 得 更 快 一 些 。 


多 选 结构 也 是 匹配 优先 的 吧 


Is Alternation Greedy? 


多 选 分 支 的 工作 原理 非常 重要 ， 因 为 在 不 同 的 正则 引擎 中 它们 是 过 然 不 同 的 。 如 果 遇 到 的 
多 个 多 选 分 支 都 能 够 匹配 ， 究 竟 会 选择 哪 一 个 昵 ? 或 者 说 ， 如 果 不 只 一 个 多 选 分 支 能 够 匹 
配 ， 最 后 究竟 应 该 选择 哪 一 个 呢 ? 如果 选择 的 是 匹配 文本 最 长 的 多 选 分 支 ， 有 人 也 许 会 说 
多 选 结构 也 是 匹配 优先 的 ， 如 果 选 择 的 是 匹配 文本 最 短 的 多 选 分 支 ， 有 人 也 许 会 说 它 是 忽 
略 优先 的 ? 那么 (如果 只 能 是 一 个 的 话 ) 究竟 是 哪个 ? 


让 我 们 看 看 Perl、PHP、Java、.NET 以 及 其 他 语言 使 用 的 传统 型 NFA 引擎 。 遇 到 多 选 结构 
时 ， 这 种 引擎 会 按照 从 左 到 右 的 顺序 检查 表达 式 中 的 多 选 分 支 。 拿 正则 表达 式 “(Subject 
IDpate) :小 来 说 ， 遇 到 "Subject1pateij 时 ， 首 先 党 试 的 是 'Subjeccj。 如 果 能 够 匹配 ， 就 转 
而 处 理 接 下 来 的 部 分 (也 就 是 后 面 的 “:…)。 如 果 无 法 匹配 ， 而 此 时 又 有 其 他 多 选 分 支 (就 
是 例子 中 的 pacej) ， 正 则 引擎 会 回溯 来 尝试 它 。 这 个 例子 同样 说 明 ， 正 则 引擎 会 回溯 到 存 
在 尚未 尝试 的 多 选 分 支 的 地 方 。 这 个 过 程 会 不 断 重复 ， 直 到 完成 全 局 匹配 ， 或 者 所 有 的 分 
支 〈 也 就 是 本 例 中 的 所 有 多 选 分 支 ) 都 尝试 穷尽 为 止 。 
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所 以 ,对 于 常见 的 传统 型 NFA 引擎 ,用 "tour1ltoltournament! 来 匹配 "three'cournaments， 
won’ WL, 会 得 到 什么 结果 呢 ? 在 尝试 到 “three* tournaments*won” 时 , 在 每 个 位 置 进行 
的 匹配 尝试 都 会 失败 ， 而 且 每 次 尝试 时 ， 都 会 检查 所 有 的 多 选 分 支 ( 并 且 失 败 )。 而 在 这 个 
位 置 ， 第 一 个 多 选 分 支 tour 能 够 匹配 。 因 为 这 个 多 选 结构 是 正则 表达 式 中 的 最 后 部 分 ， 
tour1 匹 配 结束 也 就 意味 着 整个 表达 式 匹 配 完成 。 其 他 的 多 选 分 支 就 不 会 尝试 了 。 


因此 我 们 知道 ， 多 选 结构 既 不 是 匹配 优先 的 ， 也 不 是 忽略 优先 的 ， 而 是 按 顺 序 排列 的 ， 至 
少 对 传统 型 NFA 来 说 是 如 此 。 这 上 比 匹配 优先 的 多 选 结构 更 有 用 ， 因 为 这 样 我 们 能 够 对 匹配 
的 过 程 进行 更 多 的 控制 一 一 正则 表达 式 的 使 用 者 可 以 用 它 下 令 :“ 先 试 这 个 ， 再 试 那 个 ， 最 
后 试 男 一 个 ， 直 到 试 出 结果 为 止 ”。 


不 过 , 也 不 是 所 有 的 流派 都 支持 按 序 排列 的 多 选 结构 。DFA 和 POSIX NFA 确实 有 匹配 优先 
的 多 选 结构 ， 它 们 总 是 匹配 所 有 多 选 分 支 中 能 匹配 最 多 文本 的 那个 (也 就 是 本 例 中 的 
上 ournament))。 但 是 ， 如 果 你 使 用 的 是 Perl、PHP、.NET、java.util.regex， 或 者 其 他 
使 用 传统 型 NFA 的 工具 ， 多 选 结构 就 是 按 序 排列 的 。 


发 气 有 序 多 选 结构 的 价值 


Taking Advantage of Ordered Alternation 


回 过 头 来 看 第 167 W'(\.\a\a(1-9) 2) \a* AVA, 如 果 我 们 明白 ,\.\a\a[1-9]?, 其 实 等 
于 NaN HN. \a\ (1-931, BET AY LAGE BEAK BS EO .\d\dl\.\d\d{1-9)) 
vdxi。{( 这 并 非 必须 的 改动 ,只 是 举例 说 明 )。 这 个 表达 式 与 之 前 的 完全 一 样 吗 ? 如 果 多 选 结 
构 是 匹配 优先 的 ， 那 么 答案 就 是 肯定 的 ， 但 如 果 多 选 结构 是 有 序 的 ， 两 者 就 完全 不 一 样 。 


我 们 来 看 多 选 结构 有 序 的 情形 。 首 先 选 择 和 测试 的 是 第 一 个 多 选 分 支 ， 如 果 能 够 匹配 ， 控 
制 权 就 转移 到 紧 接 的 "6*, 那里。 如 果 还 有 其 他 的 数字 , \a*, 能 够 匹配 它们 , 也 就 是 任何 不 
为 零 的 数字 ， 它 们 是 原来 问题 的 根源 (如 果 读 者 还 记得 ， 当 时 的 问题 就 在 于 ， 这 位 数字 我 
们 只 希望 在 括号 里 匹配 , 而 不 通过 括号 外 面 的 \a*))。 所 以 , 如 果 第 一 个 多 选 分 支 无 法 匹配 ， 
第 二 个 多 选 分 支 同样 无 法 匹配 ， 因 为 二 者 的 片头 是 一 样 的 。 即 使 第 一 个 多 选 结构 无 法 匹配 ， 
正则 引擎 仍然 会 对 第 二 个 多 选 分 支 进行 徒劳 的 过 试 。 


不 过 ， 如 果 交 换 多 选 分 支 的 顺序 ， 变 成 (\.\aval1-9]1\.\ava)\da*i， 它 就 等 价 于 匹配 优 
先 的 "ava[1-91?)\dri。 如 果 第 一 个 多 选 分 支 结 尾 的 [1-9] 匹 配 失败 ， 第 二 个 多 选 分 
支 仍然 有 机 会 成 功 。 我 们 使 用 的 仍然 是 有 序 排列 的 多 选 结构 ， 但 是 通过 变换 顺序 ， 实 现 了 
匹配 优先 的 功能 。 
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第 一 次 拆 分 [1-91? 1 成 两 个 多 选 分 支 时 ， 我 们 把 较 短 的 分 支 放 在 了 前 面 ， 得 到 了 一 个 不 具 
备 匹配 优先 功能 的 .?,。 在 这 个 具体 的 例子 中 ， 这 么 做 没有 意义 ， 因 为 如 果 第 一 个 多 选 分 支 
不 能 匹配 ， 第 二 个 肯定 也 无 法 匹配 。 我 经 常 看 到 这 样 没有 意义 的 多 选 结构 ， 对 传统 型 NFA 
来 说 ， 这 肯定 不 对 。 我 曾 看 到 有 一 本 书 以 'a( (ab)*1b*) 为 例 讲解 传统 型 NFA 正则 表达 式 
的 括号 。 这 个 例子 显然 没有 意义 ， 因 为 第 一 个 多 选 分 支 ab) * ,永远 也 不 会 匹配 失败 ， 所 以 
后 面 的 其 他 多 选 分 支 毫 无 意义 。 你 可 以 继续 添加 : 


lar ((ab)*|b*].* |partridge*in’a*pear*tree| [a-z}); 
a A 


这 个 正则 表达 式 的 意义 都 不 会 有 丝毫 的 改变 。 要 记 住 的 是 ， 如 果 多 选 分 支 是 有 序 的 ， 而 能 
够 匹配 同样 文本 的 多 选 分 支 又 不 只 一 个 ， 就 要 小 心安 排 多 选 分 支 的 先后 顺序 。 


有 序 多 选 结构 的 陷阱 


有 序 多 选 分 支 容许 使 用 者 控制 期 望 的 匹配 ， 因 此 极为 便利 ， 但 也 会 给 不 明 就 里 的 人 造成 麻 
烦 。 如 果 需 要 匹配 “Jan 31” 之 类 的 日 期 我 们 需要 的 就 不 是 简单 的 Jan [0123]{0-9]1， 
因为 这 样 的 表达 式 能 够 匹配 “Jan*00” 和 “Jan*39” 这 样 的 日 期 ， 却 无 法 匹配 “Jan*7'。 


一 种 办 法 是 把 日 期 部 分 拆 开 。 用 '0?{1-9] 匹配 可 能 以 0 开头 的 前 九天 的 日 期 ,用 '{12) (0-9), 
处 理 十 号 到 二 十 九 号 ， 用 '3[01] 1 处 理 最 后 两 天 。 把 上 面 这 些 连 起 来 ， 就 是 Jar 
(0?(1-9)4(12] (0~9J13(O01J)a, 


如 果 用 这 个 表达 式 来 匹配 “Jan 31 is Dad's birthday"， 结 果 如 何 呢 ? 我 们 和 希望 获得 的 
当然 是 “Jan 31"， 但 是 有 序 多 选 分 支 只 会 捕获 “Jan 3’, AES? 在 匹配 第 一 个 多 选 分 
支 0?{1-9] 时 , 前 面 的 "0?, 无 法 匹配 , 但 是 这 个 多 选 分 支 仍然 能 够 匹配 成 功 , 因为 '[1-9]， 
能 够 匹配 “3 ` 。 因 为 此 多 选 分 支 位 于 正则 表达 式 的 末尾 ，、 所 以 匹配 到 此 完成 。 


如 果 我 们 重新 安排 多 选 结构 的 顺序 环视 ， 把 能 够 匹配 的 数字 最 短 的 放 到 最 后 ， 这 个 问题 就 
解决 了 : ‘Jan*([12] [0-9] 43[01]10?[1-9]),。 


另 一 种 办 法 是 使 用 "yan'(311(123]101[012]?[1-9])。 但 这 也 要 求 我 们 仔细 地 安排 多 选 分 
支 的 顺序 避免 问题 。 还 有 一 种 办 法 是 ‘Jan*(0[1-9]1[12] [0-9] ?43[01]?1[4-9])1, 这 样 不 
论 顺 序 环视 如 何 都 能 获得 正确 结果 。 比 较 和 分 析 这 3 个 不 同 的 表达 式 ， 会 有 很 多 发 现 (我 
会 给 读者 一 些 时 间 来 想 这 个 问题 ， 尽 管 下 一 页 的 补充 内 容 会 有 所 帮助 )。 


Ei 
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拆 分 日 期 的 几 种 办 法 


下面 几 种 办 法 都 可 以 用 来 解决 第 176 页 的 日 期 匹配 问题 正则 表达 式 中 的 元 素 能 
| 匹配 日 历 中 对 应 元 素 的 部 分 。 


joa 02 03 04 05 06 07 08 os| 
Phi 12 13 14.25 16 17 18 19| 





' 32 |G | CEES 





2 © Oe 








or1-9] o C ED 


C — 





NFA, DFA 和 POSIX 


NFA, DFA, and POSIX 


最 左 最 长 规则 


The Longest-Leftmost ” 


之 前 我 们 说 过 : 如 果 传 动 装置 在 文本 的 某 个 特定 位 置 启动 DFA 引擎 ， 而 在 此 位 置 又 有 一 个 
或 多 个 匹配 的 可 能 ，DFA 就 会 选择 这 些 可 能 中 最 长 的 。 因 为 在 所 有 同样 从 最 左边 开始 的 可 
能 的 匹配 文本 中 它 是 最 长 的 ， 所 以 叫 它 “ 最 左 最 长 的 〈longestleftmost)” 匹 配 。 


绝对 最 长 


这 里 说 的 “最 长 ”不 限于 多 选 结 构 。 看 看 NFA 如 何 用 "one(self)?(selfsufficient)?， 
来 匹配 字符 串 oneselfsufficient, NFA 首先 匹配 'onej， 然 后 是 匹配 优先 的 !(self) 2), 

留 下 (selfsufficient)?1 来 匹配 sufficient。 它 显然 无 法 匹配 , 但 整个 表达 式 并 不 会 因 
此 匹配 失败 , 因为 这 个 元 素 不 是 必须 匹配 的 。 所 以 , 传统 型 NFA 返回 oneselfsufficient, 
放弃 没有 尝试 的 状态 (POSIX NFA 的 情况 与 此 不 同 ， 我 们 稍 后 将 会 看 到 ).。 


www.TopSage.com 


178 第 4 章 : 表达 式 的 匹配 原理 


与 此 相反 ，DFA 会 返回 更 长 的 结果 :oneselfsufficient。 如 果 最 开始 的 " (self)> | 因为 
某 些 原因 无 法 匹配 ，NFA 也 会 返回 跟 DFA 一 样 的 结果 ， 因 为 self)? ZEWN, 
(selfsufficient)2) 就 能 成 功 匹 配 。 传 统 型 NFA 不 会 这 样 , 但 是 DFA 则 会 这 样 ， 因 为 会 
选择 最 长 的 可 能 匹配 。DEFA 同时 记录 多 个 匹配 ， 在 任何 时 候 都 清楚 所 有 的 匹配 可 能 ， 所 以 
它 能 做 到 这 一 点 。 





我 选 这 个 简单 的 例子 是 因为 它 很 容易 理解 ， 但 是 我 希望 读者 能 够 明白 ， 这 个 问题 在 现实 中 
很 重要 。 举 例 来 说 ,如 果 和 希望 匹配 连续 多 行文 本 ,常见 的 情况 是 ， 一 个 逻辑 行 (logical line) 
可 以 分 为 许多 现实 的 行 ， 每 一 行 以 反 斜 线 结尾 ， 例 如 : 


SRC=array.c builtin.c eval.c field.c gawkmisc.c io.c main.c \ 
missing.c msg.c node.c re.c version.c 


读者 可 能 希望 用 人 \w+= .* 来 匹配 这 种 “var=value” 的 数据 , 但 是 正则 表达 式 无 法 识别 连续 
的 行 ( 在 这 里 我 们 假设 点 号 无 法 匹配 换行 符 )。 为 了 匹配 多 行 ， 读 者 可 能 需要 在 表达 式 最 后 
添加 和 (\\\n.*) ,得 到 个 \w+=.*(\\\n.*)*。 显然 , 这 意味 着 任何 后 继 的 逻辑 行 都 能 匹配 ， 
只 要 他 们 以 反 斜 线 结尾 。 这 看 起 来 设 错 ， 但 在 传统 型 NFA 中 行 不 通 。. ”到 达 行 尾 的 时 候 ， 
已 经 匹配 了 反 斜 线 ， 而 表达 式 中 后 面 的 部 分 不 会 强迫 进行 回溯 (了 152)。 但 是 ，DFA 能 够 
匹配 更 长 的 多 行文 本 ， 因 为 它 确实 是 最 长 的 。 


如 果 能 够 使 用 忽略 优先 的 量词 ， 也 许可 以 考虑 用 它们 来 解决 问题 ， 例 如 “\w+=.*?(\\Vn， 
*?)*j。 这 样 点 号 每 次 实际 匹配 任何 字符 之 前 ， 都 需要 测试 转 义 的 换行 符 部 分 ， 这 样 \\, 就 
能 够 匹配 换行 符 之 前 的 反 斜 线 。 不 过 这 也 行 不 通 。 如 果 忽 略 优先 量词 匹配 某 些 可 选 的 部 分 ， 
必然 是 在 全 局 匹配 必须 的 情况 下 发 生 。 但 是 在 本 例 中 ，=, 后 面 的 所 有 部 分 都 不 是 必须 匹配 
的 ， 所 以 没有 东西 会 强迫 忽略 优先 量词 匹配 任何 字符 。 忽 略 优先 的 正则 表达 式 只 能 匹配 
“SRC= ， 这 显然 不 是 我 们 期 望 的 结果 。 


这 个 问题 还 有 其 他 的 解决 办 法 ， 我 们 会 在 下 一 章 继续 这 个 问题 (7186), 


POSIX 和 最 左 最 长 规则 


POSIX and the Longest-Leftmost Rule 


POSIX 标准 规定 ， 如 果 在 字符 串 的 某 个 位 置 存在 多 个 可 能 的 匹配 ， 应 当 返 回 的 是 最 长 的 匹 
Ac. 


POSIX 标准 文档 中 使 用 了 “最 左边 开始 的 最 长 匹配 (longest of the leftmost)”, EFFZ AM 


if 
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定 必须 使 用 DFA， 那 么 ， 如 果 希 望 使 用 NFA KKE POSIX, 程序 员 应 该 如 何 做 ? 如 果 你 希 
望 执 行 POSIX NFA， 那 么 必须 找到 完整 的 oneselfsufficient 和 所 有 的 连续 行 ， 虽 然 这 
个 结果 是 违反 NFA“ 天 性 的。 


传统 型 NFA 引擎 会 在 第 一 次 找到 匹配 时 停 下 来 ， 但 是 如 果 让 它 继续 尝试 其 他 分 支 (状态 ) 
会 怎样 呢 ? 每 次 匹配 到 表达 式 的 末尾 时 ， 它 都 会 获得 另 一 个 可 能 的 匹配 结果 。 如 果 所 有 的 
分 支 都 穷尽 了 ， 就 能 从 中 选择 最 长 的 匹配 结果 。 这 样 ， 我 们 就 得 到 了 一 台 POSIX NFA。 


在 上 面 的 例子 中 ，NFA 匹配 (selft)?! 时 保存 了 一 个 备用 状态 : one(tself)? (selfsuf- 
ficient) ?1 在 one selfsufficienti, 传统 型 NFA 在 oneselfsufficient 之 后 停止 匹配 ， 
而 POSIX NFA 仍然 会 继续 检查 余下 的 所 有 状态 , 最 终 得 到 那个 更 长 的 结果 (其 实 是 最 长 的 ) 


oneselfsufficient, 
sd 








第 7 章 有 一 个 例子 ， 可 以 让 Perl 模拟 POSIX 的 做 法 ， 返 回 最 长 的 匹配 字符 (225)。 


速度 和 效率 


Speed and Efficiency 


如 果 传 统 型 NFA 的 效率 是 我 们 应 当 关注 的 问题 (对 提供 回溯 的 传统 型 NFA 来 说 , 这 确实 是 
-一 个 问题 ) ABZ POSIX NFA 的 效率 就 更 值得 关注 ,因为 它 需 要 进行 更 多 的 回 湖 。POSIX 
NFA 需要 尝试 正则 表达 式 的 所 有 变 体 (译注 4)。 第 6 章 告 诉 我 们 ， 正 则 表达 式 写 得 精 糕 的 
话 ， 匹 配 的 效率 就 会 很 低 。 


DFA 的 效率 


文本 主导 的 DFA 巧妙 地 避免 了 回 湖 造 成 的 效率 问题 。DFA 同时 记录 了 所 有 可 能 的 匹配 ， 这 
样 来 提高 速度 。 它 是 如 何 做 到 这 一 切 的 呢 ? 


DFA 引擎 需要 更 多 的 时 间 和 内 存 ， 它 第 一 次 遇见 正则 表达 式 时 ， 在 做 出 任何 尝试 之 前 会 用 
比 NFA 详细 得 多 的 (也 是 截然 不 同 的 ) 办 法 来 分 析 这 个 正则 表达 式 。 开 始 尝试 匹配 的 时 候 ， 
它 已 经 内 建 了 一 张 路 线 图 (map) ， 描 述 “ 遇 到 这 个 和 这 个 字符 ， 就 该 选择 这 个 和 那个 可 能 
的 匹配 "。 字 符 串 中 的 每 个 字符 都 会 按照 这 张 路 线 图 来 匹配 。 


有 时 候 ， 构 造 这 张 路 线 图 可 能 需要 相当 的 时 间 和 内 存 ， 不 过 只 要 建立 了 针对 特定 正则 表达 
式 的 路 线 图 ， 结 果 就 可 以 应 用 到 任意 长 度 的 文本 。 这 就 好 像 为 你 的 电动 车 充电 一 样 。 首 先 ， 
你 得 把 车 停 到 车 库 里 面 ， 插 上 电源 等 待 一 段 时 间 ， 但 只 要 发 动 了 汽车 ， 清 洁 的 能 源 就 会 源 
源 而 来 。 


译注 4: permutation ， 指 一 个 正则 表达 式 能 够 匹配 的 各 种 形式 的 文本 。 
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NFA 理论 与 现实 


NFA (译注 5) 真正 的 数学 和 计算 学 意义 是 不 同 于 通常 说 的 “NFA 引 学 ”的 。 在 理论 
上 , NFA 和 DFA 引擎 应 该 匹配 完全 一 样 的 文本 , 提供 完全 一 样 的 功能 。 但 是 在 实际 中 ， 
因为 人 们 需要 更 强 的 功能 ， 更 具 表 达能 力 的 正则 表达 式 ， 它 的 语意 发 生 了 变化 。 反 向 
引用 就 是 一 例 。 


DFA 引 党 的 设计 方案 就 排除 了 反 向 引用 ,但 是 对 于 真正 (数学 意义 上 的 ) 的 NFA 引 学 
来 说 ， 提 供 反 向 引用 的 支持 只 需要 很 小 的 改动 。 这 样 我 们 就 得 到 了 一 个 功能 更 强大 的 
LIFR, EZEN (nonregular) 的 (数学 意义 上 的 ) 。 这 是 什么 意思 呢 ? 或 许 ， 


你 不 应 该 继续 叫 它 “NEFA ， 而 是 “不 正则 表达 式 (nonregular expressions)”， 因 为 这 个 
名 词 才 能 描述 (在 数学 意义 上 ) 新 的 情形 。 但 是 实际 没 人 这 么 做 ， 所 以 这 个 名 字 就 这 
样 流传 下 来 ， 虽 然 实现 方式 都 不 再 是 (数学 意义 上 的 ) NFA, 

这 对 用 户 有 什么 意义 ? 显然 没有 什么 意义 。 作 为 用 户 ， 你 不 需要 关心 它 是 正则 还 是 非 
正则 ， 而 只 需要 知道 它 能 为 你 做 什么 〈 也 就 是 本 章 的 内 容 ) 。 

对 那些 布 望 了 解 更 多 的 正则 表达 式 的 理论 的 人 ， 经 典 的 计算 机 科学 教学 文本 是 ，Aho、 
Sethi, Ullman 的 Compilers—Principles, Techniques, and Tools (Addison-Wesley, 1986) 
的 第 3 章 ， 通 常 说 的 “恐龙 蔬 "， 因 为 它 的 封面 。 更 确切 地 说 ， 这 是 一 条 “ 红 龙 ",“ 绿 
龙 ” 指 的 是 它 的 前 任 ，Aho 和 Ullman 的 Principles of Compiler Design. 





小 结 : NFA 与 DFA 的 比较 


Summary: NFA and DFA in Comparison 


NFA 与 DFA 各 有 利弊 。 


DFA 与 NFA: 在 预 编译 阶段 (Pre-use compile) 的 区 别 


在 使 用 正则 表达 式 搜索 之 前 ， 两 种 引擎 都 会 编译 表达 式 ， 得 到 一 套 内 化 形式 ， 适 应 各 自 的 
匹配 算法 。NFA 的 编译 过 程 通常 要 快 一 些 , 需要 的 内 存 也 更 少 一 些 。 传 统 型 NFA 和 POSIX 
NFA 之 间 并 没有 实质 的 差别 。 


译注 5: 此 处 NFA 指 的 是 非 确 定型 有 穷 自动 机 。 


if 
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DFA 5 NFA. 匹配 速度 的 差别 


对 于 “正常 ”情况 下 的 简单 文本 匹配 测试 ， 两 种 引擎 的 速度 差不多 。 一 般 来 说 ，DFA 的 速 
度 与 正则 表达 式 无 关 ， 而 NFA 中 两 者 直接 相关 。 


传统 的 NFA 在 报告 无 法 匹配 以 前 ， 必 须 尝 试 正则 表达 式 的 所 有 变 体 。 这 就 是 为 什么 我 要 用 
整 章 (第 6 章 ) 来 论述 提高 NFA 表达 式 匹配 速度 的 技巧 。 我 们 将 会 看 到 ， 有 时 候 一 个 NFA 
永远 无 法 结束 匹配 。 传 统 型 NFA 如 果 能 找到 一 个 匹配 ， 肯 定 会 停止 匹配 。 


相反 ，POSIX NFA 必须 尝试 正则 表达 式 的 所 有 变 体 ， 确 保 获 得 最 长 的 匹配 文本 ， 所 以 如 果 
匹配 失败 ， 它 所 花 的 时 间 与 传统 型 NFA 一 样 (有 可 能 很 长 )。 因 此 ， 对 POSIX NFA 来 说 ， 
表达 式 的 效率 问题 更 为 重要 。 


在 某 种 意义 上 ， 我 说 得 绝对 了 一 点 ， 因 为 优化 措施 通常 能 够 减少 获得 匹配 结果 的 时 间 。 我 
们 已 经 看 到 , 优化 引擎 不 会 在 字符 串 开 头 之 外 的 任何 地 方 尝 试 带 “, 锚 点 的 表达 式 , 我们 会 
在 第 6 章 看 到 更 多 的 优化 措施 。 


DFA 不 需要 做 太 多 的 优化 ， 因 为 它 的 匹配 速度 很 快 ， 不 过 最 重要 的 是 ，DFA 在 预 编 译 阶段 
所 作 的 工作 提供 的 优化 效果 ， 要 好 于 大 多 数 NFA 引擎 复杂 的 优化 措施 。 


现代 DFA 引擎 经 常会 尝试 在 匹配 需要 时 再 进行 预 编译 ， 减 少 所 需 的 时 间 和 内 存 。 因 为 应 用 
的 文本 各 异 ， 通 常情 况 下 大 部 分 的 预 编 译 都 是 白费 工夫 。 因 此 ， 如 果 在 匹配 过 程 确实 需要 
的 情况 下 再 进行 编译 ， 有 时 候 能 节省 相当 的 时 间 和 内 存 (技术 术语 就 是 “延迟 求 值 (lazy 
evaluation)" ) 。 这 样 ， 正 则 表达 式 、 待 匹配 的 文本 和 匹配 速度 之 间 就 建立 了 某 种 联系 。 


DFA 与 NFA: 匹配 结果 的 差别 


DFA (或 者 POSIX NFA) 返回 最 左边 的 最 长 的 匹配 文本 。 传统 型 NFA 可 能 返回 同样 的 结果 ， 
当然 也 可 能 是 别 的 文本 。 针 对 某 一 型 具体 的 引擎 ， 同 样 的 正则 表达 式 ， 同 样 的 文本 ， 总 是 
得 到 同样 的 结果 ， 在 这 个 意义 上 来 说 ， 它 不 是 “随机 ”的 ， 但 是 其 他 NFA 引擎 可 能 返回 不 
一 样 的 结果 。 事 实 上 ， 我 见 过 的 所 有 传统 型 NFA 返回 的 结果 都 是 一 样 的 ， 但 并 没有 任何 标 
准 来 硬性 规定 。 


Hi 
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DFA 5 NFA: 能 力 的 差异 


NFA 引擎 能 提供 一 些 DFA 不 支持 的 功能 ， 例 如 : 


。 ”捕获 由 括号 内 的 子 表达 式 匹 配 的 文本 。 相 关 的 功能 是 反 向 引用 和 后 匹配 信息 (after- 
match information) ， 它 们 描述 匹配 的 文本 中 每 个 括号 内 的 子 表达 式 所 匹配 文本 的 位 置 。 


。 环视， 以 及 其 他 复杂 的 零 长 度 确认 ( 注 8) (7133). 


°. ” 非 匹 配 优 先 的 量词 ， 以 及 有 序 的 多 选 结构 。DFA 很 容易 就 能 支持 选择 最 短 的 匹配 文本 
(尽管 因为 某 些 原因 , 这 个 选项 似乎 从 未 向 用 户 提 供 过 ), 但 是 它 无 法 实现 我 们 讨论 过 
的 局 部 的 忽略 优先 性 和 有 序 的 多 选 结构 。 


。 ”占有 优先 量词 (7142) 和 固化 分 组 (7139), 


RA DFA 的 速度 和 NFA 的 功能 : 正则 表达 式 的 终极 境界 


我 已 经 多 次 说 过 ，DFA 不 能 支持 捕获 括号 和 反 向 引用 。 这 无 疑 是 对 的 ， 但 这 并 不 是 说 ， 
我 们 不 能 组 合 不 同 的 技术 ， 以 达到 正则 表达 式 的 终极 境界 。180 页 的 补充 内 容 描 述 了 
NFA 为 了 追求 更 强大 的 功能 , 如 何 脱离 了 纯 理论 的 道路 和 限制 , DFA 的 情况 也 是 如 此 。 
受 自身 结构 的 限制 ，DFA 进行 这 种 突破 更 加 困难 ， 但 并 非 不 可 能 。 


GNU grep 采取 了 一 种 简单 但 有 效 的 策略 。 它 尽 可 能 多 地 使 用 DFA, 在 需要 反 向 引用 的 
时 候 ， 才 切换 到 NFA。GNU awk 的 办 法 也 差不多 在 进行 “是 否 匹 配 ” 的 检查 时 ， 


w RA GNU grep 的 DFA 引擎 ， 如 果 需 要 知道 具体 的 匹配 文本 的 内 容 ， 就 采用 不 同 的 
引 掌 。 这 里 的 “不 同 的 引 掌 ”就 是 NFA， 利 用 自己 的 gensub 函数 ，GNU awk 能 够 很 
方便 地 提供 捕获 括号 。 

Tel 的 正则 引擎 由 Henry Spencer (你 或 许 记 得 ， 这 个 人 在 正则 表达 式 的 早期 发 展 和 流 
行 中 扮演 了 重要 的 角色 ) FA, CHARS MH, Tel 引擎 有 时 候 像 NFA 一 一 它 支持 
环视 、 捕 获 括 号 、 反 向 引用 和 忽略 优先 量词 。 但 是 ， 它 也 确实 能 提供 POSIX 的 最 左 最 
长 匹配 (177)， 但 没有 我 们 将 在 第 6 章 看 到 的 NFA 的 问题 。 这 点 确实 很 棒 。 





注 8: lex 提供 的 trailing context 等 价 于 正则 表达 式 末 尾 的 寒 长 度 商定 环视 ,但 它 并 不 能 应 用 到 来 
AZ Sp ORAL AS FP 


ii 
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DFA 与 NFA: 实现 难度 的 差异 


尽管 存在 限制 , 但 简单 的 DFA 和 NFA 引擎 都 很 容易 理解 和 实现 。 对 效率 (包括 时 间 和 空间 
效率 ) 和 增强 性 能 的 追求 ， 令 实现 越 来 越 复杂 。 


用 代码 长 度 来 衡量 的 话 ， 支 持 NFA 正则 表达 式 的 ed Version 7 (1979 年 1 月 发 布 ) 只 有 不 
到 350 行 的 C 代码 (所 以 ， 整 个 grep 只 有 区 区 478 行 代码 )。Henry Spencer1986 年 免费 提 
供 的 Version 8 正则 程序 差不多 有 1900 行 C 代码 , 1992 年 Tom Lord 的 POSIX NFA package 
rx (被 GNU sed 和 其 他 工具 采用 ) 长 达 9 700 行 。 


ATHA DFA 和 NFA 的 优点 ，GNU egrep Version 2.4.2 使 用 了 两 个 功能 完整 的 引擎 (ER 
多 8 900 行 代码 )，Tcl 的 DFA/NFA 混合 引擎 (请 看 上 一 页 的 补充 内 容 ) 更 是 长 达 9 500 行 。 


某 些 实现 很 简单 ， 但 这 并 不 是 说 它们 支持 的 功能 有 限 。 我 曾经 想 要 用 Pascal 的 正则 表达 式 
来 处 理 某 些 文本 。 从 毕业 以 后 我 就 没 用 过 Pascal 了 ， 但 是 写 个 简单 的 NFA 引擎 并 不 需要 太 
多 工夫 。 它 并 不 追求 花哨 ， 也 不 追求 速度 ， 但 是 提供 了 相对 全 面 的 功能 ， 非 常 实用 。 


总 结 


Summary 


如 果 你 希望 一 遍 就 能 读 懂 本 章 的 所 有 内 容 ， 大 概 得 做 点 准备 。 至 少 ， 这 些 东 西 不 那么 容易 
理解 。 我 花 了 些 时 间 才 理解 它 ， 花 了 更 长 的 时 间 才 真正 弄 懂 。 我 希望 这 章 简要 的 讲解 能 够 
降低 读者 理解 的 难度 。 我 尝试 过 简单 地 解释 ， 同 时 不 要 调和 信 太 简单 的 陷阱 (不 幸 的 是 ， 太 
过 直 白 的 解释 总 是 妨碍 了 真正 的 理解 )。 本 章 有 许多 这 样 的 陷阱 ， 所 以 我 在 其 中 安排 了 许多 
对 其 他 页 的 引用 ， 在 下 面 的 摘要 中 ， 读 者 可 以 很 快 地 找到 其 他 的 内 容 。 


实现 正则 表达 式 匹 配 引 擎 有 两 种 常见 的 技术 ， 一 种 是 “表达 式 主导 的 NFA” (7153), 3— 
种 是 “文本 主导 的 DEFA”(=155)。 它 们 的 全 称 见 第 156 页 。 
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这 两 种 技术 ， 结 合 POSIX 标准 ， 可 以 按照 实用 标准 划分 3 种 正则 引擎 : 
。 ”传统 型 NFA (汽油 驱动 ， 功 能 强大 )。 

e POSIX NFA (汽油 驱动 ， 符 合 标准 )。 

°> DFA (不 一 定 符合 POSIX) (电力 驱动 ， 运 转 稳定 )。 


为 了 对 手头 的 工具 有 个 大 致 的 了 解 ， 你 需要 知道 它 采 用 的 是 什么 引擎 ， 以 对 正则 表达 式 做 
相应 的 调 校 。 最 常见 的 引擎 就 是 传统 型 NFA， 其 次 是 DFA。 表 4-1 (7145) 列 出 了 若干 常 
用 工具 及 它们 使 用 的 引擎 类 型 ，“ 测 试 引 擎 的 类 型 ”( 了 146) 给 出 了 测试 引擎 类 型 的 方法 。 


对 于 任何 引擎 来 说 ， 都 有 一 条 通用 的 规则 : 开始 位 置 靠 先 的 匹配 文本 优先 于 开始 位 置 靠 后 
的 匹配 文本 。 因 为 “传动 机 构 ” 会 从 前 往 后 在 文本 的 各 个 位 置 展开 尝试 (148)。 


对 于 从 某 个 位 置 开始 的 匹配 : 
文本 主导 的 DFA 引擎 


寻找 可 能 的 最 长 的 匹配 文本 。 不 再 介绍 (177)。 稳 定 、 速 度 快 (179)， 讲 解 起 来 
很 麻烦 。 


表达 式 主导 的 NFA 引擎 


匹配 过 程 中 可 能 需要 “反复 尝试 (work through)”, NFA 匹配 的 灵魂 是 回溯 (7157, 
162)。 控 制 匹配 过 程 的 元 字符 :标准 量词 ( 星 号 等 等 ) 是 匹配 优先 的 (7151), Hie 
量词 是 忽略 优先 或 者 占有 优先 的 (169)。 在 传统 型 NFA 中 ， 多 选 结构 是 有 序 排 列 的 
(=174)， 在 POSIX NFA 中 是 匹配 优先 的 。 


POSIX NFA 必须 找到 最 长 的 匹配 文本 。 但 是 ， 匹 配 并 不 难 理解 ， 只 须 考虑 效率 (第 6 
章 的 问题 )。 


传统 型 NFA 控制 能 力 最 强 的 正则 引擎 ,因此 使 用 者 可 以 使 用 该 引擎 的 表达 式 主导 性 质 
来 精确 控制 匹配 过 程 。 


理解 本 章 的 概念 和 练习 是 书写 正确 而 高 效 的 正则 表达 式 的 基础 ， 这 也 是 接 下 来 两 章 的 主题 。 
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正则 表达 式 实用 技巧 


Practical Regex Techniques 


现在 我 们 已 经 掌握 了 编写 正则 表达 式 所 需 的 基本 知识 ， 我 希望 在 更 复杂 的 环境 中 应 用 这 些 
知识 来 处 理 更 复杂 的 问题 。 每 个 正则 表达 式 都 必须 在 下 面 两 个 方面 求 得 平衡 : 准确 匹配 期 
望 匹配 的 内 容 ， 忽 略 不 期 望 匹 配 的 字符 。 我 们 已 经 看 过 许多 例子 都 说 明 ， 如 果 应 用 得 当 ， 
匹配 优先 非常 有 用 ， 但 如 果 不 够 小 心 ， 也 可 能 带 来 麻烦 ， 在 本 章 我 们 还 将 看 到 许多 例子 。 


NFA 引擎 还 需要 平衡 另外 一 个 因素 : 这 也 是 下 一 章 的 主题 。 设 计 精 糕 的 正则 表达 式 


一 即使 可 以 认为 没 犯错 误 Se 时 以 让 








里 HTML 的 实例 中 吸取 知识 。 原 因 在 
i 而 且 还 是 一 种 艺术 (art)。 它 的 
TE; 用 这 些 例 子 告诉 读者 ， 自 己 在 
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正则 表达 式 的 平衡 法 则 


Regex Balancing Act 


好 的 正则 表达 式 必须 在 这 些 方面 求 得 平衡 : 
。 ”只 匹配 期 望 的 文本 ， 排 除 不 期 望 的 文本 。 
。 ”必须 易于 控制 和 理解 。 


。 ”如 果 使 用 NFA 引擎 ， 必 须 保证 效率 (如 果 能 够 匹配 ， 必 须 很 快 地 返回 匹配 结果 ， 如 宁 
不 能 匹配 ， 应 该 在 尽 可 能 短 的 时 间 内 报告 匹配 失败 ) 。 


这 些 方 面 常常 是 与 具体 文本 相关 的 。 如 果 我 只 使 用 命令 行 ， 只 需要 快速 地 grep 某 些 东 西 ， 
可 能 不 会 过 分 关心 匹配 的 准确 性 ， 通 常 也 不 会 花 太 多 精力 来 调 校 。 我 不 在 平 多 花 点 时 间 来 
手工 排查 ， 因 为 我 能 够 迅速 地 在 输出 中 找到 自己 需要 的 内 容 。 但 是 ， 如 果 处 理 重要 的 程序 ， 
就 需要 花费 时 间 精 力 来 保证 正确 性 : 如 果 需 要 ， 正 则 表达 式 也 可 能 很 复杂 。 这 些 因素 都 需 
要 权衡 。 


即使 使 用 同样 的 程序 ， 效 率 也 是 身 具 体 胸 本 相 淆 的。 如 果 是 NEA ， 用 “-(Gisplayl 
geometry !cemapi + |quick24¢ random | yaw) $j JAA RITEN GARR ASHER 
ARBRE, AAS US, BnR ERPF REN E (可 能 只 是 在 程序 开 
始 的 时 候 运行 若干 次 )， 即 使 所 需 时 间 比 正常 的 长 100 倍 也 不 要 紧 ， 因 为 这 时 候 效率 并 不 是 
问题 。 但 是 ， 如 果 要 逐 行 检查 很 大 的 文 伸 ,- 低 效率 的 程序 运行 起 来 会 让 你 痛苦 不 堪 。 


若干 简单 的 例子 


A Few Short Examples 


匹配 连续 行 ( 续 前 ) 


Continuing with Continuation Lines 


继续 前 一 章 中 匹配 连续 行 的 例子 (7178), 我 们 发 现 (在 传统 型 NFA 中 使 用 “\w+=.*(\\\n， 
2} ®) 并 不 能 匹配 下 面 的 两 行文 本 : 


SRC=array.c builtin.c eval.c field.c gawkmisc.c io.c main.c\ 
missing.c msg.c node.c re.c version.c 


问题 在 于 , BA! . +) A CRA RMR, 这 样 '(\\\n.*)*, 就 不 能 按照 预期 匹配 反 斜 
线 了 。 所 以 ， 本 章 出 现 的 第 一 条 经 验 就 是 ;如果 不 需要 点 号 匹配 反 斜 线 ， 就 应 该 在 正则 表 
达 式 中 做 这 样 的 规定 。 我们 可 以 把 每 个 点 号 替换 成 '[^\n\\]; (请 注意 ，\n 包含 在 排除 性 字 
符 组 中 。 你 应 该 记得 ， 原 来 的 正则 表达 式 的 假设 之 一 就 是 ， 点 号 不 会 匹配 换行 符 ， 我 们 也 
不 希望 它 的 替代 品 能 够 匹配 换行 符 119 页 )。 
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于 是 ， 我 们 得 到 ， 


laws [^An A] AAA [^in] *) 
=, a 


它 确实 能 够 匹配 连续 行 ， 但 因此 也 产生 了 一 个 新 的 问题 : 这 样 反 斜 线 就 不 能 出 现在 一 行 的 
非 结尾 位 置 。 如 果 需 要 匹配 的 文本 中 包含 其 他 的 反 斜 线 ， 这 个 正则 表达 式 就 会 出 问题 。 现 
在 我 们 假设 它 会 包含 ， 所 以 需要 继续 改进 正则 表达 式 。 


迄今 为 止 ， 我 们 的 思路 都 是 ,“ 匹 配 一 行 ， 如 果 还 有 连续 行 ， 就 继续 匹配 "。 现 在 换 另 一 种 
思路 ， 这 种 思路 我 觉得 通常 都 会 奏效 : 集中 关注 在 特定 时 刻 真 正 容 许 匹 配 的 字符 。 在 匹配 
一 行文 本 时 ， 我 们 期 望 匹配 的 要 么 是 普通 〈 除 反 斜 线 和 换行 符 之 外 ) 字符 ， 要 么 是 反 斜 线 
与 其 他 任何 字符 的 结合 体 。 在 点 号 通 配 模式 中 , \ 八 .能 匹配 反 斜 线 加 换行 符 的 结合 体 。 





所 以 , 正则 表达 式 就 变 成 了 “\w+=([^\n\\]IN\.)s， 在 点 号 通 配 模式 下 。 因 为 开头 是 
如 果 需 要 ， 可 能 得 使 用 增强 的 文本 行销 点 匹配 模式 (7112), 


但 是 ， 这 个 答案 仍然 不 够 完美 一 一 我 们 会 在 下 一 章 讲 解 效 率 问题 时 再 次 看 到 它 (7270), 


匹配 卫 地 址 


Matching an IP Address 


来 看 个 复杂 点 的 例子 ,匹配 一 个 卫 (Internet Protocol， 因 特 网 协议 ) 地 址 : 用 点 号 分 开 的 四 
个 数 ， 例 如 1.2.3.4。 通 党 情况 下 ， 每 个 数 都 有 三 位 ， 例 如 001.002.003.004。 你 可 能 会 
想到 用 [0-9]*\.[0-9]*\.[0-9]*\.[0-9]*) 从 文本 中 提取 一 个 IP 地址 ， 但 是 这 个 表达 式 
显然 不 够 精致 ， 它 甚至 会 匹配 ‘and then . . ...?”'。 仔 细 看 看 就 会 发 现 ， 这 个 表达 式 甚至 
不 需要 匹配 任何 数字 一 一 它 只 需要 三 个 点 号 (当然 也 可 能 包括 其 间 的 数字 )。 


为 解决 这 个 问题 ， 我 们 首先 把 星 号 改 成 加 号 ， 因 为 我 们 知道 ， 每 一 段 必 须 有 至 少 一 位 数字 。 
为 确保 整个 字符 串 的 内 容 就 是 一 个 下 地 址 ， 我 们 可 以 在 首尾 加 上 '“.. .$,， 于 是 我 们 得 到 : 


fA[Q0-9]+\.[0-9]+\.[0-9]+\.[0-9]+$) 


如 果 用 "a 替换 '[0-9]1, RARA d.d. d+. d+, 这 样 可 能 更 好 看 一 些 ( 注 1), 
但 是 ,这 个 表达 式 仍然 会 捕获 一 些 并 非 IP 地 址 的 数据 ,例如 “1234.5678.9101112.131415” 


注 1: 这 倒 不 一 定 , 主要 看 读者 的 喜好 。 我 发 现 , 在 复杂 的 正则 表达 式 中 ,\dj 比 '[0-9]1 更 容易 
理解 ， 但 是 ， 在 某 些 系统 中 ， 这 二 者 并 不 等 同 。 在 支持 Unicode htt, a 或 许 能 匹配 
非 ASCII 的 数字 。 


ill 
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(IP 地 址 的 每 个 字段 都 在 0-255 以 内 )。 那么 , 你 可 以 强行 规定 每 个 字段 必须 包含 三 位 数字 ， 
BREE '*\d\d\d\.\d\a\d\.\d\d\d\.\d\d\d$), 但 这 样 未 免 太 不 灵活 (too specific) 了 。 即 
使 某 个 字段 只 有 一 位 或 者 两 位 数字 (例如 1.234.5.67)， 也 应 该 匹配 。 如 果 流 派 支持 区 间 
量词 [min,max}) , PAT WIXZAS '*\d(1,3}\.\d{1,3}\-\a(1,3)\.\d(1, 3383, 如果 不 支持 ， 
则 可 以 用 "a\d?\d?1 或 者 "da(\ad\d?) ?il。 这 两 种 方式 略 有 不 同 , 但 都 能 匹配 一 到 三 个 数字 。 


现在 ， 正 则 表达 式 中 的 匹配 精度 可 能 已 经 满足 需求 了 。 如 果 要 更 精确 ， 就 必须 考虑 到 ， 
"a{1,3 儿 ,能够 匹配 999， 而 它 超过 了 255， 所 以 它 不 是 一 个 合法 的 了 地址。 


我 们 有 好 几 种 办 法 来 匹配 0 和 255 之 间 的 数字 。 最 条 的 办 法 就 是 01112131…25312541255j。 
不 过 这 又 不 能 处 理 以 0 开头 的 数字 ,所 以 必须 写成 '01001000111011001…J, 这 样 一 来 , TE 
则 表达 式 就 长 得 过 分 了 。 对 于 DFA 引擎 来 说 ,问题 还 只 是 它 太 长 太 繁杂 一 一 但 匹配 的 速度 
与 其 他 等 价 正则 表达 式 是 一 样 的 。 但 对 于 NFA 引擎 ， 太 多 的 多 选 分 支 简直 就 是 效率 杀手 。 


实际 的 解决 办 法 是 ， 关 注 字 段 中 什么 位 置 可 以 出 现 哪 些 数字 。 如 果 一 个 字段 只 包含 一 个 或 
者 两 个 数字 ， 就 无 需 担 心 这 个 字段 的 值 是 否 合法 , 所 以 \at\a\d 就 能 应 付 。 也 不 比 担心 那 
些 以 0 或 者 1 开头 的 三 位 数 , 因为 000-199 都 是 合法 的 IP 地 址 。 所 以 我 们 加 上 | (02) ad, 
得 到 \al\a\al[oll\a\d。 你 可 能 觉得 这 有 点 像 第 1 章 里 匹配 时 间 的 例子 (228), ， 和 前 一 
章 中 匹配 日 期 的 例子 (7177), 


继续 看 这 个 正则 表达 式 ， 以 2 开头 的 三 位 数字 ， 如 果 小 于 255 就 是 合法 的 ， 所 以 第 二 位 数 
字 小 于 5 就 代表 整个 数 也 是 合法 的 。 如 果 第 二 位 数字 是 5， 第 三 位 数字 就 必须 小 于 6。 这 可 
以 表示 为 '2[0-4]\d125[0-5]j。 


现在 这 个 正则 表达 式 有 点 看 不 懂 了 ， 但 分 析 之 后 还 是 能 够 理解 其 中 包含 的 思路 。 结 果 就 是 
alvaval[ollvaval2[0-4]\dl25[0-5]。 其 实 我 们 可 以 合并 前 面 三 个 多 选 分 支 ， 得 到 
£01) 2\d\d212 [0-4] \da125[0-5])。 在 NEFA 中 ,这 样 做 的 效率 更 高 ， 因 为 任何 多 选 分 支 匹 
配 失 败 都 会 导致 回溯 。 请 注意 ， 第 一 个 多 选 分 支 中 用 的 是 "da\a?,， 而 不 是 "a?\d!， 这样 ， 
如 果 根 本 不 存在 数字 ，NFA 会 更 快 地 报告 匹配 失败 。 我 把 这 个 问题 的 分 析 留 给 读者 一 一 通 
过 一 个 简单 的 验证 就 能 发 现 二 者 的 区 别 。 我 们 还 可 以 做 些 修改 进一步 提高 这 个 表达 式 的 效 
率 ， 不 过 这 要 留待 下 一 章 讨论 了 。 


ii 
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现在 这 个 表达 式 能 够 匹配 0 到 255 之 间 的 数 ， 我 们 用 括号 把 它 包 起 来 ， 用 来 取代 之 前 表达 
式 中 的 \ ad{1,3}J， 就 得 到 : 
‘~([01]?\d\ad?12[0-4]\d125[0-5])\.([01]?3\d\d?12[0-4]\d125[0-5])\. 
(101]?\d\d?12[0-4]\d125[0-5])\.([01]?\ad\d?12[0-4] \d125 [0-5] )$; 
这 可 真 叫 复杂 ! 需要 这 么 麻烦 吗 ? 这 得 根据 具体 需求 来 决定 。 这 个 表达 式 只 会 匹配 合法 的 
IP ht, 但 是 它 也 会 匹配 一 些 语意 不 正确 的 IP 地址 , 例如 0.0.0.0 (所 有 字段 都 为 零 的 IP 
地 址 是 非法 的 )。 使 用 环视 功能 (133) 可 以 在 “后 添加 '(?!:0+\.0+\.0+\.0+$)!， 但 是 
某 些 时 候 ， 处 理 各 种 极端 情形 会 降低 成 本 /收益 的 比例 。 某 些 情况 下 ， 更 合适 的 做 法 就 是 不 
依赖 正则 表达 式 完 成 人 部 工作 。 例 如 ， 你 可 以 只 使 用 ~^\a{1,3}\.\ad{1,3}\.\ad{l1,3}\. 
\d{1,3}$， 用 括号 把 每 个 字段 括 起 来 ， 把 数字 变 成 程序 中 的 $1、$2、$3、$4， 这 样 就 可 以 
用 其 他 程序 来 验证 了 。 


确定 应 用 场合 (context) 


这 个 正则 表达 式 必 须 借 助 销 点 An's. 才能 正常 工作 , 认识 到 这 一 点 很 重要 。 否则 , 它 就 可 
能 匹配 ip=72123.3.21.993， 如 果 使 用 传统 型 NFA， 则 可 能 匹配 ip=123.3.21.223, 


在 第 二 个 例子 中 ， 这 个 表达 式 甚至 连 最 后 的 223 都 无 法 完整 匹配 。 但 是 ， 问 题 并 不 在 于 表 
达 式 本 身 ， 因 为 没有 东西 (例如 分 隔 符 , 或 者 末尾 的 锁 点 ) 强迫 它 匹配 223 。 最 后 那个 分 组 
的 第 一 个 多 选 分 支 '[011?\a\a?1!/， 匹 配 了 前 面 两 位 数字 ， 如 果 末 尾 没 有 '$!,， 匹 配 到 此 就 结 
束 了 。 在 前 一 章 日 期 匹配 的 例子 中 ， 我 们 可 以 安排 多 选 分 支 的 次 序 来 达到 期 望 的 目的 。 现 
在 我 们 也 把 能 把 匹配 三 位 数字 的 多 选 分 支 放 在 最 前 面 ， 这 样 在 匹配 两 位 数 的 多 选 分 支 获 得 
尝试 机 会 之 前 ,任何 三 位 数 都 能 完全 匹配 (DFA 和 POSIX NFA 当然 不 需要 这 样 安排 ， 因 为 
它们 总 是 返回 最 长 的 匹配 文本 )。 


无 论 是 否 重新 排序 ， 第 一 个 错误 仍然 不 可 避免 。“ 啊 哈 !1”， 你 可 能 会 想 ,，“ 我 可 以 用 单词 分 
界 符 锁 点 来 解决 这 个 问题 .” 不 幸 的 是 ， 这 也 不 能 奏效 ， 因 为 这 样 的 正则 表达 式 仍 然 能 够 匹 
Ae 1.2.3.4.5.6。 为 了 避免 匹配 这 样 内 嵌 的 文本 ， 我 们 必须 确保 匹配 文本 两 侧 至 少 没 有 数 
字 或 者 点 号 。 如 果 使 用 环视 ， 可 以 在 原来 表达 式 的 首尾 添加 '(?<!{\w.])…(?![\w.])1 来 
保证 匹配 文本 之 前 (以 及 之 后 ) 不 出 现 '[\w.], 能 匹配 的 字符 。 如 果 不 支持 环视 ,在 首尾 添 
加 (“1*)…(*1$) ,也 能 够 应 付 某 些 情况 。 








Hi 
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处 理 文件 名 


Working with Filenames 


处 理 文 件 名 和 路 径 ， 例 如 Unix PAY/usr/local/bin/Perl 或 者 Windows 下 的 \Program 
Files\Yahoo!\Messenger， 很 适合 用 来 讲解 正则 表达 式 的 应 用 。 因 为 “动手 (using)” 比 
“观摩 (reading)” 更 有 意思 , 我 会 同时 用 Perl, PHP (preg 程序 ) Java 和 VB.NET 来 讲解 。 
如 果 你 对 其 中 的 某 些 语言 不 感 兴 趣 ， 不 妨 完 全 跳 过 那些 代码 一 其 中 蕴含 的 思想 才 是 最 重 
要 的 。 


去 掉 文 件 名 开头 的 路 径 


第 一 个 例子 是 去 掉 文件 名 开始 的 路 径 , 例如 把 /usr/1local/bin/gcc 变 成 gcc。 从 本 质 层 面 
来 考虑 问题 是 成 功 的 一 半 。 在 本 例 中 , 我 们 希望 去 掉 在 最 后 的 斜 线 ( 含 ) 之 前 (在 Windows 
Hie RR) 的 任何 字符 。 如 果 没有 斜 线 最 好 ， 因 为 什么 也 不 用 干 。 我 曾 说 过 ，.* ,常常 被 
滥用 , 但 是 此 处 我 们 需要 匹配 优先 的 特性 。^.*/j 中 的 和 .* 可 以 匹配 一 整 行 ,然后 回 退 (也 
就 是 回溯 ) 到 最 后 的 斜 线 ， 来 完成 匹配 。 


下 面 是 四 种 语言 的 代码 ， 去 掉 变 量 £ 中 的 文件 名 中 开头 的 路 径 。 对 于 Unix 的 文件 名 ， 


二 

Perl $f =~ o{*.*/}{); 

PHP $f = preg_replace('{^.*/}', '', $f); 
java.util.regex f = f.replaceFirst("*.*/",""); 
VB.NET f = Regex.Replace(f, "^.*/",""); 


正则 表达 式 (或 者 说 用 来 表示 正则 表达 式 的 字符 串 ) 以 下 画 线 标注 ， 正 则 表达 式 相关 的 组 
件 则 由 粗 体 标注 。 


下 面 是 处 理 Windows 文件 名 的 代码 ，Windows 中 的 分 隔 符 是 反 斜 线 而 不 是 斜 线 ， 所 以 要 用 
正则 表达 式 “.*\\。 在 正则 表达 式 中 ， 我 们 需要 在 反 斜 线 前 再 加 一 个 反 斜 线 ， 才 能 表示 转 
义 的 反 斜 线 ， 不 过 ， 在 中 间 两 段 程序 中 添加 的 这 个 反 斜 线 本 身 也 需要 转 义 ; 


[I 5 m — — — ~ = — 一 -一 一 
和 WF ig a Af vi, bess [I ~~ = Py KD X . ee a lee Be S Lp. c cP 3 Pil iy bog “s SSI E VR 
ze y l 和 人 “gta e Ty ot gee ae pe, ON Rep PAE ett eS 
j ai oe 12 r ` " Vike PN. Nos Ew EA Y ae ays ` Hy 
a = = 4 = r — a Swe ——_=- = res ú PEEPI h riari — sah 7/ 





Perl SE un g/*.*\\//; 

PHP $f = preg_replace('/^.*\\\/', '', $f); 
java.util.regex f = f.replaceFirst("*.*\\\\",""); 
VB.NET f = Regex.Replace(f, "*.*\\",""); 


从 中 很 容易 看 出 各 种 语言 的 差异 ， 尤 其 是 Java 中 那 4 PRAM (7101), 
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有 一 点 请 务必 记 住 : 别 忘 了 时 常 想 想 匹 配 失 败 的 情形 。 在 本 例 中 ， 匹 配 失败 意味 着 字符 申 
中 没有 斜 线 ， 所 以 不 会 替换 ， 字 符 串 也 不 会 变化 ， 而 这 正 是 我 们 需要 的 。 


为 了 保证 效率 ， 我 们 需要 记 住 NFA 引擎 的 工作 原理 。 设 想 下 面 这 种 情况 : 我 们 忘记 在 正则 
表达 式 的 开头 添加 FES (这 个 符号 很 容易 忘记 ) ， 用 来 匹配 一 个 恰好 没有 斜 线 的 字符 串 。 
同样 , 正则 引擎 会 在 字符 串 的 起 始 位 置 开 始 搜索 。.* ,抵达 字符 串 的 未 尾 , 但 必须 不 断 回 退 ， 
以 找到 斜 线 或 者 反 斜 线 。 直 到 最 后 它 交还 了 匹配 的 所 有 字符 ， 仍 然 无 法 匹配 。 所 以 ， 正 则 
引擎 知道 ， 在 字符 串 的 起 始 位 置 不 存在 匹配 ， 但 这 远 远 没有 结束 。 


接 下 来 传动 装置 开始 工作 ， 从 在 目标 字符 串 的 第 2 个 字符 开始 ， 依 次 尝试 匹配 整个 正则 表 
达 式 。 事 实 上 ， 它 需要 在 字符 串 的 每 个 位 置 (从 理论 上 说 ) 进行 扫描 -回溯 。 文 件 名 通常 很 
短 ， 因 此 这 不 是 一 个 问题 , 但 原理 确实 如 此 。 如 果 字 符 串 很 长 , 就 可 能 存在 大 量 的 回溯 ( 当 
然 ，DFA 不 存在 这 个 问题 )。 


在 实践 中 ， 经 过 合理 优化 的 传动 装置 能 够 认识 到 ， 对 几乎 所 有 以 .*; 开 头 的 正则 表达 式 来 
说 ， 如 果 在 某 个 字符 串 的 起 始 位 置 不 能 匹配 ， 也 就 不 能 在 其 他 任何 位 置 匹 配 ， 所 以 它 只 会 
在 字符 串 的 起 始 位 置 (7246) 尝试 一 次 。 不 过 ， 在 正则 表达 式 中 写 明 这 一 点 更 加 明智 ， 在 
例子 中 我 们 正 是 这 样 做 的 。 


从 路 径 中 获取 文件 名 


另 一 种 办 法 是 忽略 路 径 ， 简 单 地 匹配 最 后 的 文件 名 部 分 。 最 终 的 文件 名 就 是 从 最 后 一 个 斜 
线 开 始 的 所 有 内 容 : 【^/1*Si。 这 一 次 ， 锁 点 不 仅仅 是 一 种 优化 措施 ， 我 们 确实 需要 在 结尾 
设置 一 个 销 点 。 现 在 我 们 可 以 这 样 做 ， 以 Perl 来 说 明 ; 

SWholePath =~ m{([*/]*)$}; # 利用 正则 表达 式 检测 SwholePath 

SFilename = $1; # 记录 匹配 内 容 
你 也 许 注 意 到 了 ， 这 里 并 役 有 检查 这 个 正则 表达 式 能 否 匹 配 ， 因 为 它 总 是 能 匹配 。 这 个 表 
达 式 的 唯一 要 求 就 是 ， 字 符 串 有 $ 能 够 匹配 的 结束 位 置 ， 而 即使 是 空 字符 串 也 有 一 个 结束 位 
E., A, RASI 来 引用 括号 内 的 表达 式 匹配 的 文本 ， 因 为 它 必 定 包括 某 些 字符 (如果 文 
件 名 以 斜 线 结尾 ， 结 果 就 是 空 字符 )。 


这 里 还 需要 考虑 到 效率 在 NFA 中 ,，'[^/1*s 的 效率 很 低 , 仔细 想 想 NFA 引擎 的 匹配 过 程 ， 
你 会 明白 它 包 括 了 太 多 的 回调 。 即 使 是 短 短 的 “/usry/local/bin/per1l” ,在 获得 匹配 结果 
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之 前 , 也 要 进行 四 十 多 次 回 滴 。 考虑 从 … 1ocal… 开 始 的 尝试 。'[{^/}*, 一 直 匹 配 到 第 二 个 1， 
之 后 匹配 失败 ， 然 后 对 1、a、c、o、1 的 存储 状态 依次 尝试 S (都 无 法 匹配 )。 如 果 这 还 不 
够 ， 又 会 从 …1,ocal/… 开 始 重复 这 个 过 程 ， 接 着 从 …1lo.cal/… 开 始 ， 不 断 重复 。 


这 个 例子 不 应 该 消耗 我 们 太 多 的 精力 ， 因 为 文件 名 一 般 都 很 短 (40 次 回溯 几乎 可 以 忽略 不 
计 一 一 4000 万 次 回溯 才 真 正 要 紧 )。 再 一 次 , 重要 的 是 理解 问题 本 身 , 这 样 才能 选择 合适 的 
通用 规则 来 解决 具体 的 问题 。 


需要 指出 的 是 ， 纵 然 本 书 是 关于 正则 表达 式 的 ， 但 正则 表达 式 也 不 总 是 最 优 解 。 例 如 ， 大 
多 数 程序 设计 语言 都 提供 了 处 理 文件 名 的 非 正则 表达 式 函 数 。 不 过 为 了 讲解 正则 表达 式 ， 
我 仍 会 继续 下 去 。 


所 在 路 径 和 文件 名 


下 一 步 是 把 完整 的 路 径 分 为 所 在 路 径 和 文件 名 两 部 分 。 有 许多 办 法 做 到 这 一 点 ， 这 取决 于 
我 们 的 要 求 。 开 始 ， 你 可 能 想 要 用 “(.*)7/(.*)5S 的 S1 和 $2 来 提取 这 两 者 。 看 起 来 这 个 正 
则 表达 式 非常 直观 ， 但 知道 了 匹配 优先 量词 的 工作 原理 之 后 ， 我 们 知道 第 一 个 *， 会 首先 
捕获 所 有 的 文本 , 而 不 给 /1 和 $2 留 下 任何 字符 。 第 一 个 '.*, 能 交还 字符 的 唯一 原因 , 就 是 
在 尝试 匹配 /{.*)$, 时 进行 的 回 滴 。 这 会 把 “交还 的 ”部 分 留 给 后 面 的 '.*,。 因 此 ，$1 就 
是 文件 所 在 的 路 径 ，$2 就 是 文件 的 名 字 。 


需要 注意 的 是 , 我 们 依靠 开头 的 (.*) /来 确保 第 二 个 '(.*) ,不 会 匹配 任何 斜 线 。 理解 匹配 
优先 之 后 , 我 们 知道 这 没 问 题 。 如 果 要 做 的 更 精确 ， 可 以 使 用 '[^/]*, 来 捕捉 文件 名 。 于 是 
我 们 得 到 “(.*)7/([^/]*)Si。 这 个 表达 式 准 确 地 表达 了 我 们 的 意图 ， 一 眼 就 能 看 明白 。 


这 个 表达 式 有 个 问题 , 它 要 求 字符 串 中 必须 出 现 一 个 斜 线 , 如 果 我 们 用 它 来 匹配 file.txt, 
因为 无 法 匹配 ， 所 以 设 有 结果 。 如 果 我 们 希望 精益 求 精 ， 可 以 这 样 : 


if ($WholePath = ~m!*(.*) /([*/]*)$!) { 

# EBEE --$1 和 $2 部 合法 

$LeadingPath = $1; 

$FileName = $2; 

} else { 

# “无 法 匹配 ， 文 件 名 中 不 包含“ 全 

$LeadingPath = "."; # 所 以 "file.txt" 应 该 是 "./file.txt"” ("." 表 示 当 前 路 径 ) 
$FileName = $WholePath; 

} 
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匹配 对 称 的 括号 


Matching Balanced Sets of Parentheses 


对 称 的 圆 括 号 、 方 括号 之 类 的 符号 匹配 起 来 非常 麻烦 。 在 处 理 配置 文件 和 源 代码 时 ， 经 当 
需要 匹配 对 称 的 括号 。 例 如 ， 解 析 C 语言 代码 时 可 能 需要 处 理 某 个 函数 的 所 有 参数 。 函 数 
的 参数 包含 在 函数 名 称 之 后 的 括号 里 ， 而 这 些 参 数 本 身 又 有 可 能 包含 嵌 套 的 函数 调用 或 是 
算式 中 的 括号 。 我 们 先 不 考虑 嵌 套 的 括号 ， 你 或 许 会 想到 “\bfoo\ ([^] ) *\J， 但 这 行 不 通 。 


FR C 的 光荣 传统 ， 我 把 示范 函数 命名 为 Foo。 表 达 式 中 的 标记 部 分 是 用 来 捕获 参数 的 。 
对 于 fo0(2,*4.0) 和 foo(somevar,*3.7) 之 类 的 参数 ， 这 个 表达 式 完 全 没 问题 。 但 是 ， 它 
也 可 以 匹配 foo(bar (somevar) 3.7)， 这 可 不 是 我 们 需要 的 。 所 以 要 用 到 比 '[~) 1+) ER 
明 的 办 法 。 


为 了 匹配 括号 部 分 ， 我们 可 以 尝试 下 面 的 这 些 正则 表达 式 : 


1 kE 括号 及 括号 内 部 的 任何 字符 。 
2. \([^)]*\) 从 一 个 开 插 号 到 最 近 的 闭 括号 。 
3. \([^(0]*\) ”从 一 个 开 插 号 到 最 近 的 闭 括 号 ,但 是 不 容许 其 中 包含 开 插 号 。 


图 5-1 显示 了 对 一 行 简单 代码 应 用 这 些 表 达 式 的 结果 。 
需要 匹配 的 部 分 


val = foo + 2 * (that - 1); 


Mm 
正则 表达 式 2 匹 配 的 部 分 


正则 表达 式 1 匹 配 的 部 分 





5-1: 三 个 表达 式 的 匹配 位 置 


我 们 看 到 ,第 一 个 正则 表达 式 匹 配 的 内 容 太 多 ( 注 2)， 第 二 个 正则 表达 式 匹配 的 内 容 太 少 ， 
第 三 个 正则 表达 式 无 法 匹配 。 和 孤立 地 看 ， 第 三 个 正则 表达 式 能 够 匹配 “(chis) ， 但 是 因为 
表达 式 要 求 它 必须 紧 接 在 foo 之 后 ， 所 以 无 法 匹配 。 所 以 ， 这 三 个 表达 式 都 不 合格 。 


注 2: 1.* 很 容易 出 问题 ， 所 以 使 用 '.*) 时 必须 格外 谨慎 ， 明 确 是 否 真 的 需要 用 一 个 星 号 来 约束 
点 号 。 有 时 候 确实 必须 这 么 做 ， 不 过 通常 '.*| 都 不 是 合适 的 选择 。 
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真正 的 问题 在 于 ， 大 多 数 系统 中 ， 正 则 表达 式 无 法 匹配 任意 深度 的 嵌 套 结构 。 在 很 长 的 时 
间 内 ， 这 是 放 之 四 海 而 皆 准 的 规则 ， 但 是 现在 Perl, .NET 和 PCRE/PHP 都 提供 了 解决 的 办 
法 (参见 第 328、436、475 页 ) 。 但 是 ， 即 使 不 用 这 些 功 能 ， 我 们 也 可 以 用 正则 表达 式 来 匹 
配 特定 深度 的 嵌 套 括号 ， 但 不 是 任意 深度 的 嵌 套 括号 。 处 理 单 层 伐 套 的 正则 表达 式 是 : 


NITOPRQONCESOTEND ^O] AN) 


REKETA, EREKHRERA AtA, (A, Pima) Perl RF, ERERERIE 
$depth 之 后 , 生成 的 正则 表达 式 可 以 匹配 最 大 深度 为 Saepth HRERS. CEMRE Perl 
的 “string x count” 运 算 符 ， 这 个 运算 符 会 把 string BE count 次 : 


Sregex = '\('’.'(?:(*() J) INC" x $depth . '[^{)]*' . '\))*" x $depth .'\}'’; 


这 个 表达 式 留 给 读者 分 析 。 


防备 不 期 望 的 匹配 


Watching Out for Unwanted Matches 


有 个 问题 很 容易 忘记 ， 即 ， 如 果 待 分 析 的 文本 不 符合 使 用 者 的 预期 ， 会 发 生 什 么 。 假 设 你 
需要 编写 一 个 过 滤 程 序 ， 把 普通 文本 转换 为 HTML， 你 希望 把 一 行 连 字 符号 转换 为 HTML 
中 代表 一 条 水 平 线 的 <HR>。 如 果 使 用 搜索 -替换 命令 s/-*/<HR>/， 它 能 替换 期 望 替换 的 文 
本 ,但 只 限于 它们 在 行 开头 的 情况 。 很 奇怪 吗 ? 事实 上 ，s/-*/<HR>/ 会 把 <HR> 添 加 到 每 一 
行 的 开头 ， 而 无 论 这 些 行 是 否 以 连 字 符 开头 。 


请 记 住 , 如 果 某 个 元 素 的 匹配 没有 硬性 规定 任何 必须 出 现 的 字符 , 那么 它 总 能 匹配 成 功 。-*， 
从 字符 串 的 起 始 位 置 开始 尝试 匹配 ， 它 会 匹配 可 能 的 任何 连 字符 。 但 是 ， 如 果 没 有 连 字符 ， 
它 仍然 能 匹配 成 功 ， 这 完全 符合 星 号 的 定义 。 


在 某 位 我 非常 尊重 的 作者 的 作品 中 出 现 过 类 似 的 例子 ， 他 用 这 个 例子 来 讲解 正则 表达 式 匹 
配 一 个 数 ， 或 者 是 整数 或 者 是 浮 点 数 。 在 它 的 正则 表达 式 中 ， 这 个 数 可 能 以 负数 符号 开头 ， 
然后 是 任意 多 个 数字 ， 然 后 是 可 能 的 小 数 点 ， 再 是 任何 多 的 数字 。 他 的 正则 表达 式 是 


-2?[0-9]w\.2[0-9]xi 
确实 ， 这 个 正则 表达 式 可 以 匹配 1、-272.37、129238843.、.191919， 黄 至 是 -.0 这 样 的 
数 。 这 样 看 来 ， 它 的 确 是 个 不 错 的 正则 表达 式 。 


但 是 ， 你 想 过 这 个 表达 式 如 何 匹 配 “this*has*no"number ” “nothing*here ”或 是 空 字 符 串 
吗 ? 仔细 看 看 这 个 正则 表达 式 一 一 每 一 个 部 分 都 不 是 匹配 必须 的 。 如 果 存 在 一 个 数 ， 如 果 
正则 表达 式 从 在 字符 串 的 起 始 位 置 开 始 ， 的 确 能 够 匹配 ， 但 是 因为 匹配 没有 任何 必须 元 素 。 
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此 正则 表达 式 可 以 匹配 每 个 例子 中 字符 种 开头 的 空 字符 。 实 际 上 它 其 至 可 以 匹配 “num*123 
开头 的 空 字符 ， 因 为 这 个 空 字 符 比 数字 出 现 得 更 早 。 


所 以 ， 把 真正 意图 表达 清楚 是 非常 重要 的 。 一 个 浮 点 数 必须 要 有 至 少 一 位 数字 ， 否 则 就 不 
是 一 个 合法 的 值 。 我 们 首先 假设 ， 在 小 数 点 之 前 至 少 有 一 位 数字 (之 后 我 们 会 去 掉 这 个 条 
件 )。 如 果 是 ， 我 们 需要 用 加 号 来 控制 这 些 数字 -?[0-9]+l。 


如 果 要 用 正则 表达 式 来 匹配 可 能 存在 的 小 数 点 (及 其 后 的 数字 ) ， 就 必须 认识 到 ， 小 数 部 分 
必须 紧 接 在 小 数 点 之 后 。 如 果 我 们 简单 地 用 仆 .?[0-91*， 那 么 无 论 小 数 点 是 否 存 在 ， 
[0-9]*, 都 可 能 匹配 。 


解决 的 办 法 还 是 厘清 我 们 的 意图 : 小 数 点 (以 及 之 后 的 数字 ) 是 可 能 出 现 的 ;'(\. (0-9) *) 21, 
ZE, SRE (BLAU “Hrg governs” 或 者 “控制 controls”) 的 不 再 是 小 数 点 ， 而 是 
小 数 点 和 后 面 的 小 数 部 分 。 在 这 个 结合 体内 部 ， 小 数 点 是 必须 出 现 的 ， 如 果 没 有 小 数 点 ， 
[0-9]*J 根 本 谈 不 上 匹配 。 


把 它们 结合 起 来 ， 就 得 到 和 -?10-9]+(\ .10-9]*)?)。 这 个 表达 式 不 能 匹配 “ .007' ， 因 为 它 
要 求 整数 部 分 必须 有 一 位 数字 。 如 果 我 们 作 些 修改 ， 容 许 整 数 部 分 为 空 ， 就 必须 同时 修改 
小 数 部 分 ， 否 则 这 个 表达 式 就 可 以 匹配 空 字 符 (这 是 我 们 一 开始 就 准备 解决 的 问题 ) 。 


解决 的 办 法 是 为 无 法 覆盖 的 情况 添加 多 选 分 支 : -?[0-9]+(\.[0-9]*)?1|-?\.[0-9]iie 这 
样 就 能 匹配 以 小 数 点 开头 的 小 数 (小 数 点 是 必须 的 ) 。 仔细 看 看 , 仔细 看 看 。 你 注意 到 了 吗 ? 
第 二 个 多 选 分 支 同样 能 够 匹配 负数 符号 开头 的 小 数 ? 这 很 容易 忘记 。 当 然 , 你 也 可 以 把 -?， 
提出 来 ， 放 到 所 有 多 选 结构 的 外 面 : '-?([0-9]+(\.[0-9]*)? | \.[0-9]+)J。 





虽然 这 个 表达 式 比 最 开始 的 好 得 多 ， 但 它 仍 然 会 匹配 “2003.04.12” 这 样 的 数字 。 要 想 真 
正 匹 配 期 望 的 文本 ， 同 时 忽略 不 期 望 的 文本 ， 求 得 平衡 ， 就 必须 了 解 实 际 的 待 匹 配 文本 。 
我 们 用 来 提取 浮 点 数 的 正则 表达 式 必须 包含 在 一 个 大 的 正则 表达 式 内 部 ， 例如 用 '^…$, 或 者 


r 
num\s*=\s*-"'Sj, 
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匹配 分 隔 符 之 内 的 文本 


Matching Delimited Text 


匹配 用 分 隔 符 (以 某 些 字符 表示 ) 之 类 的 文本 是 常见 的 任务 ， 之 前 的 匹配 双 引 号 内 的 文本 
和 IP 地 址 只 是 这 类 问题 中 的 两 个 典型 例子 。 其 他 的 例子 还 包括 : 


© 匹配 “/*” 和 “*/” 之 间 的 C 语言 注释 。 
。 ”匹配 一 个 HTML tag， 也 就 是 尖 括 号 之 内 的 文本 ， 例 如 <CODE>。 


。 ”提取 HTML tag 标注 的 文本 , 例如 在 HTML 代码 “a <I>super exciting</I> offer!’ 
中 的 “super exciting’, 


。 ”匹配 .mailre 文件 中 的 一 行内 容 。 这 个 文件 的 每 一 行 都 按 下 面 的 数据 格式 来 组 织 ; 
alias 简称 电子 邮件 地 址 


例如 ‘alias jeff jfriedi8@regex.info”( 在 这 里 ， 分 隔 符 是 每 个 部 分 之 间 的 空白 
和 换行 符 )。 


© ”匹配 引文 字符 串 (quoted string) ， 但 是 容许 其 中 包含 转 义 的 引号 ， 例 如 “a passport 


needs a "2\"x3\" likeness" of the holder’, 
° ”解析 CSV (逗号 分 隔 值 ，comma-separated values) 文件 。 
总 的 来 说 ， 处 理 这 些 任 务 的 步 嗓 是 : 
1. 匹配 起 始 分 隔 符 (opening delimiter) 。 
2. 匹配 正文 (main text， 即 结束 分 隔 符 之 前 的 所 有 文本 ) 。 
3. 匹配 结束 分 隔 符 。 


我 曾经 说 过 ， 如 果 结 束 分 隔 符 不 只 一 个 字符 ， 或 者 结束 分 隔 符 能 够 出 现在 正文 中 ， 这 种 任 
务 就 很 难 完成 。 





容许 引文 字符 串 中 出 现 转 义 引号 


来 看 2\"x3\" 的 例子 ， 这 里 的 结束 分 隔 符 是 一 个 引号 , 但 正文 也 可 能 包含 转 义 之 后 的 引号 。 
匹配 开始 和 结束 分 隔 符 很 容易 ， 雇 窃 就 在 于 ， 匹 配 正文 的 时 候 不 要 超越 结束 分 隔 符 。 


仔细 想 想 正文 里 能 够 出 现 的 字符 ， 我 们 知道 ， 如 果 一 个 字符 不 是 引号 ， 也 就 是 说 如 果 这 个 
字符 能 由 '[^"]; 匹 配 ， 那 么 它 肯 定 属于 正文 。 不 过 ， 如 果 这 个 字符 是 一 个 引号 ， 而 它 前 面 
又 有 一 个 反 斜 线 ， 那 么 这 个 引号 也 属于 正文 。 把 这 个 意思 表达 出 来 ， 使 用 环视 (7133) 功 
能 来 处 理 “ 如 果 之 前 有 反 斜 线 ” 的 情况 ， 就 得 到 “"([^"11(?<=\\)")*"， 这 个 表达 式 完 全 
能 够 匹配 2\"x3\"。 
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不 过 ， 这 个 例子 也 能 用 来 说 明 ， 看 起 来 正确 的 正则 表达 式 如 何 会 匹配 意料 之 外 的 文本 ， 它 
虽然 看 起 来 正确 ， 但 不 是 任何 情况 下 都 正确 。 我 们 希望 它 匹配 下 面 这 个 无 聊 的 例子 中 的 划 
线 部 分 : 


Darth Symbol: "/-|-\\" or "[*-*]" 
但 它 匹配 的 是 : 
Darth Symbol: "/-|I-\\" or "[^-^]" 


这 是 因为 ， 第 一 个 闭 引号 之 前 的 确 存 在 一 个 反 斜 线 。 但 这 个 反 斜 线 本 身 是 被 转 义 的 ， 它 不 
是 用 来 转 义 之 后 的 双 引 号 的 (也 就 是 说 这 个 引号 其 实 是 表示 引用 文本 的 结束 )。 而 逆序 环视 
无 法 识别 这 个 被 转 义 的 反 斜 线 ， 如 果 在 这 个 引号 之 前 有 任意 多 个 “、、， 用 逆序 环视 只 会 把 
事情 弄 得 更 精 。 原 来 的 表达 式 的 真正 问题 在 于 ， 如 果 反 锋线 是 用 来 转 义 引号 的 ， 在 我 们 第 
一 次 处 理 它 时 ， 不 会 认为 它 是 表示 转 义 的 反 斜 线 。 所 以 ， 我 们 得 用 别 的 办 法 来 解决 。 





仔细 想 想 我 们 想 要 匹配 的 位 于 开始 分 隔 符 和 结束 分 隔 符 之 间 的 文本 ， 我 们 知道 ， 其 中 可 以 
包括 转 义 的 字符 (\\ .1) ,也 可 以 包括 非 引号 的 任何 字符 '{^"] 1。 FÆRA OV IOD 
*"。 不 错 ， 现 在 这 个 问题 解决 了 。 不 幸 的 是 ， 这 个 表达 式 还 有 问题 。 不 期 望 的 匹配 仍然 会 
发 生 ， 比 如 对 这 个 文本 ， 它 应 该 是 无 法 匹配 的 ， 因 为 其 中 没有 结束 分 隔 符 。 


"You need a 2\"x3\" Photo. 


为 什么 能 匹配 呢 ? 回忆 一 下 “匹配 优先 和 忽略 优先 都 期 望 获得 匹配 ” (也 167)。 即 使 这 个 表 
达 式 一 开始 匹配 到 了 引号 之 后 的 文本 ， 如 果 找 不 到 结束 的 引号 ， 它 就 会 回潮， 到 达 








TAN EDs 


Wak BFP KG, ^" DORR RR, ZAR SSR HE — PRIS. 
这 个 例子 给 我 们 的 重要 启示 是 : 


如 果 回 漳 会 导致 不 期 望 ， 与 多 选 结构 有 关 的 匹配 结果 ， 问 题 很 可 能 在 于 ， 任 何 成 功 的 
匹配 都 不 过 是 多 选 分 支 的 排列 顺序 造成 的 偶然 结果 。 


实际 上 ， 如 果 我 们 把 这 个 正则 表达 式 的 多 选 分 支 反 过 来 排列 ， 它 就 会 错误 地 匹配 任何 包含 
转 义 双 引 号 的 字符 串 。 真 正 的 问题 在 于 ， 各 个 多 选 分 支 能 够 匹配 的 内 容 发 生 了 重 登 。 


那么 ， 应 该 如 何 解 决 这 个 问题 呢 ? 就 像 第 186 页 的 那个 连续 行 的 例子 一 样 ， 我 们 必须 确保 ， 
这 个 反 斜 线 不 能 以 其 他 的 方式 匹配 ， 也 就 是 说 把 [~"], 改 为 '[~^\\"]1。 这 样 就 能 识别 双 引 
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号 和 文本 中 的 “特殊 ” 反 斜 线 ， 必 须根 据 情 况 分 别处 理 。 结 果 就 是 "(\\.1U“\\"J)*"， 它 
工作 得 很 好 (尽管 这 个 正则 表达 式 能 够 正常 工作 ， 但 对 于 NFA 引擎 来 说 ， 仍 然 有 提升 效率 
的 改进 ， 我 们 会 在 下 一 章 更 详细 地 看 这 个 例子 ， 灾 222) 。 


这 个 例子 告诉 我 们 一 条 重要 的 原理 : 


不 应 该 忘记 考虑 这 样 的 “特殊 ”情形 :; 例如 针对 “ 精 糕 (bad)” 的 数据 ， 正 则 表达 式 
不 应 该 能 够 匹配 。 


我 们 的 修改 是 正确 的 ， 但 是 有 意思 的 是 ， 如 果 有 占有 优先 量词 (7142) 或 者 是 固化 分 组 
(139)， 这 个 正则 表达 式 可 以 重新 写作 …"(\\.1[^"])e+" "R> AA] "u AX 
两 个 正则 表达 式 禁 止 引 擎 回溯 到 可 能 出 问题 的 地 方 ， 所 以 它们 都 可 以 满足 要 求 。 


理解 占有 优先 量词 和 固化 分 组 解决 此 问题 的 原理 非常 有 价值 ， 但 是 我 仍然 要 继续 之 前 的 修 
正 ， 因 为 对 读者 来 说 它 更 具 描述 性 (更 直观 )。 其 实在 这 个 问题 上 ， 我 也 愿意 使 用 占有 优先 





量词 和 固化 分 组 一 一 不 是 为 了 解决 之 前 的 问题 ， 而 是 为 了 效率 ， 因 为 这 样 报告 匹配 失败 的 
速度 更 快 。 
了 解数 据 ， 做 出 假设 


Knowing Your Data and Making Assumptions 


现在 是 时 候 强 调 我 曾经 数 次 提 到 过 的 关于 构建 和 使 用 正则 表达 式 的 一 般 规则 了 。 知 道 正则 
表达 式 会 在 什么 情况 中 应 用 , 关于 目标 数据 又 有 什么 样 的 假设 , 这 非常 重要 。 即使 简单 如 al 
这 样 的 数据 也 假设 目标 数据 使 用 的 是 作者 预期 的 字符 编码 (105)。 这 都 是 一 些 很 基本 的 
常识 ， 所 以 我 一 直 没 有 过 分 细致 地 介绍 。 


但 是 ， 许 多 对 某 个 人 来 说 明显 的 常识 ， 可 能 对 其 他 人 来 说 并 不 明显 。 例 如 ， 前 一 节 的 解决 
办 法 假设 转 义 的 换行 符 不 会 被 匹配 ,或 者 会 被 应 用 于 点 号 通 配 模式 (=111)。 如 果 我 们 真 的 
想 要 保证 点 号 可 以 匹配 换行 符 ， 同 时 流派 也 支持 ， 我 们 应 该 使 用 (?s: .) 1。 


前 一 节 中 我 们 还 假设 了 正则 表达 式 将 应 用 的 数据 类 型 ， 它 不 能 处 理 表示 其 他 用 途 的 双 引 号 。 
如 果 用 这 个 正则 表达 式 来 处 理 任何 程序 的 源 代码 ， 就 可 能 出 错 ， 因 为 注释 中 可 能 包括 双 引 
号 。 


对 数据 做 出 假设 ， 对 正则 表达 式 的 应 用 方式 做 出 假设 ， 都 无 可 厚 非 。 问 题 在 于 ， 假 设 如 果 


L 
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存在 ， 通 常会 过 分 乐观 ， 也 会 低估 了 作者 的 意图 和 正则 表达 式 最 终 应 用 间 的 差异 。 记 录 下 
这 些 假设 会 有 帮助 。 


去 除 文本 首尾 的 空白 字符 


Stripping Leading and Trailing Whitespace 


去 除 文本 首尾 的 空白 字符 并 不 难 做 到 ， 这 是 经 常 要 完成 的 任务 。 总 的 来 说 最 好 的 办 法 是 使 
用 下 面 两 个 替换 : 


s/*\s+//; 

s/\s+$//; 
为 了 增加 效率 , 我 们 用 +, 而 不 是 *,， 因 为 如 果 事 实 上 没有 需要 删除 的 空白 字符 ,就 不 用 做 
替换 。 


出 于 某 些 考 虑 ， 人 们 似乎 更 希望 用 一 个 正则 表达 式 来 解决 整个 问题 ， 所 以 我 会 提供 一 些 方 
法 供 比较 。 我 不 推荐 这 些 办 法 ， 但 对 理解 这 些 正 则 表达 式 的 工作 原理 及 其 问题 所 在 ， 非 常 
有 意义 。 
s/\s*(.*?)\s*$/$1/s 

这 个 正则 表达 式 曾 被 用 作 降 解 忽略 优先 量词 的 绝 佳 例 子 ， 但 现在 不 是 了 ， 因 为 人 们 认 


识 到 它 比 普通 的 办 法 慢 得 多 〈 在 Perl 中 要 慢 5 倍 ) 。 之 所 以 效率 这 么 低 , 是 因为 忽略 优 
先 约束 的 点 号 每 次 应 用 时 都 要 检查 \s*si。 这 需要 大 量 的 回调 。 


s/“\s*((?:.*\S)?)\s*$/$1/s 
这 个 表达 式 看 起 来 比 上 一 个 要 复杂 ， 不 过 它 的 匹配 倒是 很 容易 理解 ， 而 且 所 花 的 时 间 
也 只 是 普通 方法 的 2 fH. 在 “\s*i 匹 配 了 文本 开头 的 空格 之 后 ,'.* 马上 匹配 到 文本 的 
末尾 。 后 面 的 \S, 强 迫 它 回 漳 直 到 找到 一 个 非 空 的 字符 ， 把 剩 下 的 空白 字符 留 给 最 后 
的 \s*sS,， 捕 获 括号 之 外 的 。 
问号 在 这 里 是 必须 的 ， 因 为 如 果 一 行 数 据 只 包含 空白 字符 的 行 ， 必 须 出 现 问号 ， 表 达 
式 才能 正常 工作 。 如 果 没 有 问号 ， 可 能 会 无 法 匹配 ， 错 过 这 种 只 有 空白 字符 的 行 。 
s/*\s+l\s+$//qg 
这 是 最 容易 想到 的 正则 表达 式 ， 但 它 不 正确 (其 实 这 三 个 正则 表达 式 都 不 正确 )， 这 种 
顶 极 的 (top-leveled) 多 选 分 支 排列 严重 影响 本 来 可 能 使 用 的 优化 措施 (参见 下 一 章 )。 
/g 这 个 修饰 符 是 必须 的 , 它 容 许 每 个 多 选 分 支 匹 配 , 去 掉 开 始 和 结束 的 空格 。 看 起 来 ， 
用 /g 是 多 此 一 举 ， 因 为 我 们 知道 我 们 只 希望 去 掉 最 多 两 部 分 空白 字符 ， 每 部 分 对 应 单 
独 的 子 表达 式 。 这 个 正则 表达 式 所 用 的 时 间 是 简单 办 法 的 4 倍 。 
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测试 时 我 提 到 了 相对 速度 ， 但 是 实际 的 相对 速度 取决 于 所 用 的 软件 和 数据 。 例 如 ， 如 果 目 
标 文本 非常 非常 长 ， 而 且 在 首尾 只 有 很 少 的 空格 ， 中 间 的 那个 表达 式 甚 至 会 比 简单 的 方法 
更 快 。 不 过 ， 我 自己 在 程序 中 仍然 使 用 下 面 两 种 形式 的 正则 表达 式 : 


s/*\s+//; 
s/\s+S//; 


因为 它 几 乎 总 是 最 快 的 ， 而 且 显然 最 容易 理解 。 


HIML 相关 范例 


HTML-Related Examples 


在 第 2 章 , 我 们 曾 讨 论 过 把 纯 文 本 转换 为 HTML 的 例子 (=67)， 其 中 要 使 用 正则 表达 式 从 
文本 中 提取 E-mail 地 址 和 http URL。 本 节 来 看 一 些 与 HTML 相关 的 其 他 处 理 。 


匹配 HTML Tag 


Matching an HTML Tag 


最 常见 的 办 法 就 是 用 <[^>]+>: 来 匹配 HTML 标签 。 它 通常 都 能 工作 ， 例 如 下 面 这 段 用 来 
去 除 标签 的 Perl 语句 ， 


$html = ~ s/<[*>]+>//g; 


如 果 tag 中 含有 > , 它 就 不 能 正常 匹配 了 , 而 这 样 的 tag 明明 是 合乎 HTML 规范 的 : <input 
name=dir value=">">。 虽 然 这 种 情况 很 少见 ， 也 不 为 大 家 推荐 ， 但 HTML 语言 确实 容许 
在 引号 内 的 tag 属性 中 出 现 非 转 义 的 “<” 和 “> " 。 这 样 ， 简 单 的 '<[^>]+>; 就 无 法 匹配 了 ， 
得 想 个 聪明 点 的 办 法 。 


“<…>” 中 能够 出 现 引 用 文本 和 非 引 用 形式 的 “其 他 文本 (other stuff)”, 其 中 包括 除了 “>' 
和 引号 之 外 的 任意 字符 。HTML 的 引文 可 以 用 单 引 号 ， 也 可 以 用 双 引 号 。 但 不 容许 转 义 嵌 
套 的 引号 ， 所 以 我 们 可 以 直接 用 …[^"]*" 和 六 5]*9 来 匹配 。 


把 这 些 和 “其 他 文本 ”表达 式 '[^'" >] 合 起 来 ， 我 们 得 到 : 


ETE Cole kid [^ > DELET 
这 个 表达 式 可 能 有 点 难看 懂 ， 那 么 加 上 注释 ， 按 宽松 排列 格式 来 看 : 


# 开始 类 括号 "<" 
# 任意 数量 的 ... 
# 双 引 号 字符 事 
# 或 者 是 ... 
a its # 单 引号 字符 事 
# RHR... 
4 "其 他 文本 " 
# 
4 
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这 个 表达 式 相 当 漂 亮 ， 它 会 把 每 个 引用 部 分 单 作为 一 个 单元 ， 而 且 清 楚 地 说 明了 在 匹配 的 
什么 位 置 容许 出 现 什么 字符 。 这 个 表达 式 的 各 部 分 不 会 匹配 重复 的 字符 ， 因 此 不 存在 模糊 
性 ， 也 就 不 需要 担心 发 生前 面 例 子 中 出 现 的 ,“ 不 小 心 冒 出 来 (sneaking in)” 非 期 望 匹配 。 


不 知 你 是 否 注意 到 了 ， 最 开始 的 两 个 多 选 分 支 的 引号 中 使 用 了 “*:， 而 不 是 +。 引用 字符 串 
可 能 为 空 (例如 “alt=""")， 所 以 要 用 *, 来 处 理 这 种 情况 。 但 不 要 在 第 三 个 多 选 分 支 中 用 
HUE +, BA + >] 1 只 接受 括号 外 的 '*/ 的 限定 。 给 它 添 加 一 个 加 号 得 到 "([^'"*>]+)*， 
可 能 导致 非常 奇怪 的 结果 ， 我 不 期 望 读 者 现在 就 能 理解 ， 下 一 章 (7226) 会 详细 讲解 它 。 


在 使 用 NFA 引擎 时 ， 我 们 还 需要 考虑 关于 效率 的 问题 : 既然 没有 用 到 括号 匹配 的 文本 ， 我 
们 可 以 把 它们 改 为 非 捕获 型 括号 (了 137)。 因 为 多 选 分 支 之 间 不 存在 重复 ， 如 果 最 后 的 >， 
无 法 匹配 ， 那 么 回头 来 尝试 其 他 的 多 选 分 支 也 是 徒劳 的 。 如 果 一 个 多 选 分 支 能 够 在 某 个 位 
置 匹配 ， 那 么 其 他 多 选 分 支 肯 定 无 法 在 这 里 匹配 。 所 以 ， 不 保存 状态 也 无 所 谓 ， 这 样 做 还 
可 以 更 快 地 导致 失败 ， 如 果 找 不 到 匹配 结果 的 话 。 我 们 可 以 用 固化 分 组 '(?>…) ,而 不 是 非 
捕获 型 括号 《或 者 用 占有 优先 的 星 号 限定 )。 


匹配 HTML Link 


Matching an HTML Link 


假设 我 们 需要 从 一 份 文档 中 提取 URL 和 链接 文本 ， 例 如 下 面 的 文本 中 标记 的 内 容 : 


<a href="http://www.oreilly.com">0O'Reilly MeGia</a>… 


因为 <A> tag 的 内 容 可 能 相当 复杂 ， 我 会 分 两 步 实 现 这 个 任务 。 第 一 个 是 提取 <A> tag 内 部 
的 内 容 ， 也 就 是 链接 文本 ， 然 后 从 <A> tag 中 提取 URL 地 址 。 


实现 第 一 步 有 个 简单 办 法 ,就 是 在 点 号 通 配 模式 下 应 用 不 区 分 大 小 写 的 '<a\b([^>]+)>(.*?) 
</a>!， 这 里 使 用 了 忽 赂 优先 量词 。 它 会 把 <A> 的 内 容 放 入 $1， 把 链接 文本 放 入 $2。 当 然 ， 
像 之 前 一 样 ， 我 不 应 该 用 '[^>] +;， 而 应 该 使 用 前 几 节 中 的 表达 式 。 不 过 在 本 节 ， 我 会 继续 
使 用 这 个 简单 的 形式 ， 因 为 这 样 正则 表达 式 更 短 ， 也 更 容易 讲解 。 


<A> 的 内 容 存 人 字符 串 之 后 ， 就 可 以 用 独立 的 正则 表达 式 来 检查 它们 。 其 中 ，URL 是 
href=value 属性 的 值 。 之 前 已 经 说 过 ，HTML 容许 等 号 的 任意 一 侧 出 现 空白 字符 ， 值 可 以 
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以 引用 形式 出 现 ， 也 可 以 以 非 引 用 形式 出 现 。 下 面 的 Perl 代码 用 来 输出 变量 SHtml 中 的 链 
接 。 


# 请 注意 : while(...) 中 的 正则 表达 式 是 简化 的 形式 ， 请 参见 正文 
while (SHEml =~ m{a\b([*>]+)>(.*?)</a>}ig) 
{ 

my $Guts = $1; # 把 匹配 结果 存 入 ... 


my S$Link $2; # .... 对 应 变量 
if ($Guts =~ m{ 
\b HREF # "href" 属性 
\s* = \s* # "=" RMTBEALRSOSH 
(?: # RAH... 
nA ice Ulead a # 双 引 号 字符 事 
| # 或 者 是 ... 
DOTTY # 单 引 号 字符 事 
| # 或 者 是 ... 
({*'">\s]+) # "其 他 文本 
) + 
}xi) 
{ 
my $Url = $+; # 获得 $1、S$2 等 中 实际 参与 匹配 的 编号 最 大 的 捕获 型 括号 的 内 容 


print "$Url with link text: $Link\n"; 
} 
} 


有 几 点 需要 注意 : 


。 ”我 们 为 匹配 值 的 每 个 多 选 结构 都 添加 了 括号 ， 来 捕获 确切 的 文本 。 


。 ”因为 我 使 用 了 某 些 括号 来 捕获 文本 ， 在 不 需要 捕获 的 地 方 我 使 用 非 捕获 型 括号 ， 这 样 
做 既 清楚 又 高 效 。 


。 ““ 其 他 字符 ”部 分 排除 了 空白 字符 ， 也 排除 了 引号 和 “> 。 


。 ”因为 需要 捕获 整个 href 的 值 ， 这 里 使 用 了 “+ 来 限制 “其 他 文本 ”多 选 分支 。 这 是 否 
会 和 第 200 页 对 其 他 字符 应 用 + 一 样 导 致 “非常 奇怪 的 结果 ” 昵 ? 不 会 ,因为 这 外 面 
没有 直接 作用 于 整个 多 选 结构 的 量词 。 其 中 的 细节 同样 会 在 下 一 章 讨 论 。 


根据 具体 文本 的 不 同 ， 最 后 ，URL 可 能 保存 在 $1、$2 或 者 $3 中 。 此 时 其 他 捕获 型 括号 就 
为 空 或 是 未 定义 。Perl 提供 了 特殊 变量 $+， 代 表 $1、$2 之 类 中 编号 最 靠 后 的 捕获 文本 。 在 
本 例 中 ， 这 就 是 我 们 真正 需要 的 URL。 


Perl 中 的 $+ 很 方便 ， 其 他 语言 也 提供 了 其 他 办 法 来 选择 捕获 的 URL。 常 用 的 程序 语言 结构 
就 可 以 检查 捕获 型 括号 ， 找 到 需要 的 内 容 。 如 果 能 够 支持 ， 命 名 捕获 (138) 最 适用 于 干 
这 个 , 就 像 204 页 的 VB.NET 的 例子 那样 (幸亏 .NET 提供 了 命名 捕获 , 因为 它 的 $+ 有 问题 ， 
F424)。 
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检查 HITP URL 


Examining an HTTP URL 


现在 我 们 得 到 了 URL 地 址 ， 来 看 看 它 是 否 是 HTTP URL， 如 果 是 ， 就 把 它 分 解 为 主机 名 
(hostname) 和 路 径 (path) 两 部 分 。 因 为 已 经 有 了 URL, 任务 就 比 从 随机 文本 中 识别 URL 
要 简单 许多 ， 识 别 的 程序 要 难 许多 ， 这 将 在 后 文 介绍 。 


所 以 ， 如 果 拿 到 一 个 URL, 我 们 需要 能 够 将 它 拆 分 为 各 个 部 分 。 主 机 名 是 “http:// 之 后 
和 第 一 个 反 和 斜 线 (如 果 有 的 话 ) 之 前 的 内 容 ， 而 路 径 就 是 除 此 之 外 的 内 容 : 


(nttp:// (~/]+) (/.*) ?$1 


URL 中 有 可 能 包含 端口 号 ， 它 位 于 主机 名 和 路 径 之 间 ， 以 一 个 冒号 开头 : '^http:// 
({*/s] +) (s (\d+))?(/.*)?$, 


下 面 是 一 个 分 解 URL 的 Perl 代码 : 


if ($url =~ m{*http://((*/:]+) (: (\d+))2?(/.*) ?$}i) 
{ 
my $host $1; 
my $port = $3 [| 80; # 如 果 存 在 ， 就 使 用 $3; 否则 默认 为 80 
my $path = $4 || "/"; # 如 果 存 在 ， 就 使 用 $4; 否则 默认 为 "/" 
print "Host: Shost\n"; 
print "Port: $port\n"; 
print "Path: $path\n"; 
} else { 
print "Not an HTTP URL\n"; 


1 E 


验证 主机 名 


Validating a Hostname 


在 上 面 的 例子 中 ， 我 们 用 [^/:]+, 来 匹配 主机 名 。 不 过 ， 在 第 2 章 中 (也 76) 我 们 使 用 的 
是 更 复杂 的 '[-a-z]+(\.[-a-z]+)*\. (comledul-|info):, 做 同样 的 事情 , 复杂 程度 为 什 
么 会 有 这 么 大 的 差别 ? 


而 且 ， 虽 然 二 者 都 用 来 “匹配 主机 名 ”， 方 法 却 大 不 相同 。 从 已 知 文本 《例如 ， 从 现成 的 
URL +) 中 提取 一 些 信息 是 一 回 事 ， 从 随机 文本 中 准确 提取 同样 信息 是 另 一 回 事 。 


而 且 ， 在 上 例 中 我 们 假设 ，'http://” 之 后 就 是 主机 名 ， 所 以 用 '[^/ :]+ 来 匹配 就 是 理 所 
当然 的 。 但 是 在 第 2 章 的 例子 中 ， 我 们 使 用 正则 表达 式 从 随机 文本 中 寻找 主机 名 ， 所 以 它 
必须 更 加 复杂 。 


现在 从 另外 一 个 角度 来 看 主机 名 的 匹配 ， 我 们 可 以 用 正则 表达 式 来 验证 主机 名 。 也 就 是 说 ， 
我 们 需要 知道 ， 一 串 字 符 是 否 是 形式 规范 、 语 意 正 确 的 主机 名 。 按 规定 ， 主 机 名 由 点 号 分 
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VB.NET 中 的 link 检查 程序 
下 面 的 程序 会 列 出 Hem] 变量 中 的 链接 : 


Imports System.Text .RegularExpressions 


' 设置 搞 环 中 将 会 遇 到 的 正则 表达 式 
Dim A_RRegex as Regex = New Regex ( 
"<a\b(?<guts>[*>)+)>(?<Link>.*?)</a>", 
RegexOptions. IgnoreCase) 
Dim GutsRegex as Regex = New Regex( _ 
"\b HREF (?# ‘href' 属性 
"\s* = \s* (?# ‘=' 可 能 存在 空白 字 桂 
"(?: (?# 
vee ee (2# 
| (?# : 
" '(?<url>[^']*})' (?# #7 gF 
a (?# KAR... 
" (2<url>(*'"*>\s)+) (?# “' 其 他 文本 ' 
ot (?# | re 
RegexOptions.IgnoreCase Or RegexOptions.IgnorePatternWhitespace) 


RP RP RM BD MK RK Kw 


' 现在 检查 'Html' FF... 
Dim CheckA as Match = A_Regex.Match(Html) 


' For each match within ... 
While CheckA.Success 
' 已 匹配 <a> tag， 现 在 检查 URL 
Dim UrlCheck as Match = _ 
GutsRegex.Match (CheckA.Groups ("guts") . Value) 
If UrlCheck.Success 
' 已 经 匹配 完毕 ,得 到 URL/1ink 
Console.WriteLine("Url " & UrlCheck.Groups("url").Value & _ 
”WITH LINK " & CheckA.Groups ("Link") .Value) 
End If 
CheckA = CheckA.NextMatch 
End While 


需要 注意 的 几 点 : 

© £ VB.NET 中 使 用 正则 表达 式 ， 需 要 首先 执行 对 应 的 Imports 64), irkit 
应 当 导 入 的 库 文件 。 
程序 中 使 用 了 '(?#…) 1 风格 的 注释 ,因为 VB.NET 中 加 入 换行 符 很 不 方便 ,所 以 普 
ho) 8? EMDR TARA RAR FH SHA (RAMA ERA E 
R) RIK AMF A A BARE HEH). AT RAL KH ER, 请 在 每 一 行 的 
$4 ALF oechr(10) (7420), 
表达 式 中 的 每 个 双 引 号 都 需要 以 “”"” 表示 (7103), 


两 个 表达 式 都 用 到 了 命名 捕获 ，Groups(*url") 比 Groups(1) 和 Groups(2) 之 类 
更 为 清晰 。 





W 


www.TopSage.com 





HTML 相关 范例 205 





隔 的 部 分 组 成 ， 每 个 部 分 可 以 包括 ASCI 字符 、 数 字 和 连 字 符 ， 但 是 不 能 以 连 字符 作为 开 
汰 和 结 妊 。 所 以 ,我们 可 以 在 不 区 分 大 小 写 的 模式 下 使 用 这 个 正则 表达 式 ; Ia-z0-9]1 
la-z0-9] [-a-z0-91*[a-z0-9];。 结 尾 的 后 缀 部 分 (‘com’, ‘edu’, ‘uk’ $) 只 有 有 限 
多 个 可 能 ， 这 在 第 2 章 的 例子 中 提 到 过 。 结 合 起 来 ， 下 面 的 正则 表达 式 就 能 够 匹配 -一 个 语 
意 正确 的 主机 名 : 


A 


(?i) # 进行 不 区 分 大 小 写 的 匹配 
# 零 个 或 多 个 据点 分 陪 的 部 分 
(?: [a-z0-9]\. | {a-z0-9] [-a-z0-9]*{[a-z0-9]\. )+ 


# RAEARAHERBD... 
(?: com!edulgov! int |mil|net |org|biz|info|name|museum|coop|aero| [a-z) [a-z] } 
$ 
因为 存在 长 度 的 限制 ， 能 够 由 这 个 正则 表达 式 匹 配 的 可 能 并 不 是 合法 的 主机 名 : 每 个 部 分 
不 能 超过 63 个 字符 。 也 就 是 说 ,'[-a-z0-9]* 应 该 改 为 ‘[-a-z0-9] {0,61},。 


还 需要 做 最 后 的 改动 。 按 规定 ， 只 包括 后 组 的 主机 名 同样 是 语意 正确 的 。 但 实践 证 明 ， 这 
些 “ 主 机 名 ”不 存在 ， 但 是 对 于 两 个 字母 的 后 组 来 说 情况 可 不 是 如 此 。 例 如 ， 安 哥 拉 的 域 
名 “ai” 就 有 一 个 Web 服务 器 http;y/Yai/。 我 见 过 其 他 这 样 的 链接 : cc, co, dk, mm, ph, 


tj, tv 和 tw。 


如 果 和 希望 匹配 这 些 特殊 情况 ， 应 该 把 中 间 的 “(? :…)+4: 改 为 "2 :…) a 
(?i) # 进行 不 区 分 大 小 写 的 匹配 
# 零 个 或 多 个 据点 分 隔 的 部 分 
(?: [a-z0-9]\. | [a-z0-9] [-a-z0-9]{0,61}{a-z0-9]\. )* 
# ”然后 是 结尾 的 后 缓 部分. . . 
(?: com|edulgov! int Imillnetlorglbiz|infolnamelmseum|cooplaerol [a-z] [a-z) ) 
$ 
现在 它 可 以 用 来 验证 包含 主机 名 的 字符 串 了 。 因 为 这 是 我 们 想 出 的 与 主机 名 相关 的 三 个 正 
则 表达 式 中 最 复杂 的 ， 你 也 许 会 想 ， 不 要 这 些 锚 点 ， 可 能 比 之 前 那个 从 随机 文本 中 提取 主 
机 名 的 表达 式 更 好 。 但 情况 并 非 如 此 。 这 个 正则 表达 式 能 匹配 任意 双 字 母 单词 ， 正 因为 如 
此 ,第 2 章 中 不 那么 精妙 的 正则 表达 式 的 实际 效果 更 好 。 但 是 在 下 一 节 我 们 会 看 到 ， 某 些 
情况 下 它 仍然 不 够 完善 。 
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在 真实 世界 中 提取 URL 


Plucking Out a URL in the Real World 


供职 于 Yahoo! Finance 时 , 我 曾 写 过 处 理 收录 的 财经 新 闻 和 数据 的 程序 。 新闻 通常 是 以 纯 文 
本 格式 提供 的 , 我 的 程序 将 其 转化 为 HTML 格式 以 便于 显示 (如 果 你 在 过 去 10 年 中 曾经 在 
httpy/finance.yahoo.com 浏览 过 财经 新 闻 ， 没 惟 看 过 我 处 理 过 的 新 闻 ) 。 


因为 接受 的 数据 的 “格式 ”( 其 实 是 无 格式 ) 很 杂乱 , 从 纯 文 本 中 识别 (recognize) 出 hostname 
和 URL 又 比 验 证 (validate) 它们 困难 得 多 ， 这 任务 就 很 不 轻松 。 前 面 的 内 容 并 没有 体现 这 
一 点 ， 在 本 节 ， 你 会 看 到 我 在 Yahoo! 用 来 解决 这 个 问题 的 程序 。 


这 个 程序 从 文本 中 提取 几 种 类 型 的 URL——mailto, http, https 和 ftp。 如 果 我 们 在 文 

本 中 找到 htcp:// ,就 知道 这 肯定 是 一 个 URL 的 开头 ,所 以 我 们 可 以 直接 用 'http: //[-\w) 
+(\.w-vw]*)+i 来 匹配 主机 名 。 我 们 知道 ,要 处 理 的 文本 肯定 是 ASCI 编码 的 英文 字母 ， 

所 以 完全 可 以 用 -\w 来 取代 -a-z0-9j。Aw 同 样 可 以 匹配 下 画 线 ， 在 某 些 系 统 中 ， 它 还 可 

以 匹配 所 有 的 Unicode 字符 ， 但 是 我 们 知道 ， 这 个 程序 在 运行 时 不 会 遇 到 这 些 问题 。 


不 过 ，URL 通常 不 是 以 http:/ /或 者 mailto: 开 头 的 ， 例 如 : 
“Visit us at www.oreilly.com or mail to orders@oreilly .com'… 


在 这 种 情况 下 ,我 们 需要 加 倍 小 心 。 我 在 Yahoot 使 用 的 正则 表达 式 与 前 面 那 节 的 非常 相似 ， 
只 是 有 一 点 点 不 同 : 


(Pi: [a-z0-9] (?:[-a-z0-9]*[a-z0-9])? \. )+ # 子 域名 S 
# .Com 之 天 的 后 缓 . 要求 小 写 

(?-i: com\b 

edu\b 

biz\b 

org\b 

gov\b 

in(?:tifo)\b # .int 或 者 .info 

mil\b : 

net\b 

name \b 

museum\b 

coop\b 

aero\b 


[a-z] [a-z]\b t 双 字 母国 家 代码 


eee eee ieee 一 一 一 一 


) 


在 这 个 正则 表达 式 中 , 我 们 用 和 (?i:…),; 和 '(?-i:…); 用 来 规定 正则 表达 式 的 某 个 部 分 是 否 
区 分 大 小 写 (135)。 我 们 希望 匹配 “www.OReilly .com ,但 不 是 “NT .To” 这 样 的 股票 


iii 
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代码 (NTTO 是 北 电网 络 在 多 伦 多 证 券 交易 市 场 的 代号 ， 因 为 要 处 理 的 是 财经 新 闻 和 数据 ， 
这 样 的 股票 代码 很 多 )。 按 规定 ，URL 的 结尾 部 分 (例如 “.com ) 可 能 是 大 写 的 ， 但 我 不 
准备 处 理 这 些 情况 。 因 为 我 需要 保持 平衡 一 一 匹配 期 望 的 文本 〈 尽 可 能 多 的 URL), GRA 
期 望 的 文本 (RERE). RPA (?-i:...) 只 包括 国家 代码 ， 但 是 在 现实 中 ， 我 们 没有 
遇 到 大 写 的 URL 地 址 ， 所 以 不 必 这 人 么 做 。 


下 面 是 从 纯 文本 中 查找 URL 的 框架 ， 我 们 可 以 在 其 中 添加 匹配 主机 名 的 子 表达 式 : 


\b 


# ”匹配 开头 部 分 (proto://hostname, AMMA hostname) 
{ 
# ftp://, http:// & https:// 开头 部 分 
(ftplhttps?) ://[(-\w]+(\.\w[-\w] *}+ 
| 
# 或 者 是 用 更 准确 的 子 表 达 式 找到 hostname 


full-hostname-regex 


# PRE Reo F 
( : \d+ )? 


# 下 面部 分 可 能 出 现 ， 以 /开头 
{ 
/ path-part 
)? 
我 还 没有 谈论 过 正则 表达 式 的 path (W) 部 分 ， 它 接 在 主机 名 后 面 (例如 http://www. 
orielly.com/catalog/regex/ 中 的 划 线 部 分 )。path 是 最 难 正确 匹配 的 文本 ， 因 为 它 需 要 
一 些 猜测 才能 做 得 很 漂亮 。 我 们 在 第 2 章 说 过 ， 通 常 出 现在 URL 之 后 的 文本 也 能 被 作为 
URL 的 一 部 分 。 例 如 ， 


Read his comments at http://www.oreilly.com/ask_tim/index.html. He... 


我 们 观察 之 后 就 会 发 现 , 在 “index.html ”之 后 的 句号 是 一 个 标点 ， 不 应 该 作为 URL 的 一 
部 分 ， 但 是 “index.html” 中 的 点 号 却 是 URL 的 一 部 分 。 


肉眼 很 容易 分 辨 这 两 种 情况 ， 但 程序 做 起 来 却 很 难 ， 所 以 必须 想 些 聪明 的 办 法 来 尽 可 能 好 
地 解决 问题 。 第 2 章 的 例子 使 用 逆序 环视 来 确保 URL 不 会 以 句 末 的 句号 结尾 。 我 在 Yahoo! 
Finance 写 程 序 时 还 没有 逆序 环视 ， 所 以 我 用 的 办 法 要 复杂 的 多 ， 不 过 效果 是 一 样 的 。 代 码 
在 下 一 页 。 
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示例 5-1: 从 财经 新 闻 中 提取 URL 


\b 
# 匹配 开头 部 分 (proto://hostname, AMM hostname) 
( 


# ftp://, http://& https:// 开头 部 分 
(ftpihttps?)://[-\w)+(\.\wl-\w) *) 4+ 

| 
# 或 者 是 用 更 准确 的 子 表达 式 找 到 hostname 
(?i: [a-z0-9] (?:{[~a-z0-9]*[a-z0-9])? \. )+ # sub domains 
# .com 之 类 的 后 级. EDS 
(?-i: com\b 

edu\b 

biz\b 

gov\b 

in(?:t|f£0)\b # .int 或 者 .info 

mil\b 

net \b 

org\b 

[a-z] [a-z]\b E 双 字 母国 家 代码 


) 
) 
# 可 能 出 现 疾 口号 
( : \d+ )? 


E MPSS THAR, V/FK... 
( 


/ 
# 虽然 很 复杂 ， 但 确实 管用 
(*.!,2?3"'<>()\EN] (} \S\xX7F-\xFF] * 


[.!,?]+ (*%.8,272"'<>()N EN) C}\S\X7F-\xPF] + 





这 里 用 到 的 办 法 与 第 2 章 第 75 页 用 到 的 办 法 有 很 多 不 同 ， 比 较 起 来 也 很 有 意思 。 下 一 页 里 
使 用 此 表达 式 的 Java 程序 详细 介绍 了 它 的 构造 。 


在 实际 生活 中 ， 我 怀疑 自己 是 否 会 写 这 样 繁杂 的 正则 表达 式 ， 但 是 作为 取代 ， 我 会 建立 一 
个 正则 表达 式 “ 库 (library )”， 需 要 时 取 用 。 这 方面 一 个 简单 的 例子 就 是 第 76 页 的 
SHostnameRegex， 以 及 下 面 的 补充 内 容 。 


扩展 的 例子 


Extended Examples 


下 面 的 几 个 例子 讲解 了 一 些 关 于 正则 表达 式 的 重要 诀窍 。 讨 论 会 稍微 多 一 些 ， 关 于 解决 办 
法 和 错误 思路 的 着 墨 也 会 更 多 一 些 ， 最 终 会 给 出 正确 答案 。 


iti 


www.TopSage.com 


扩展 的 例子 209 


在 Java 中 通过 变量 构建 正则 表达 式 


String SubDomain = "(?i:[a-z0-9] | [a-z0-9] [-a-z0-9]*[a-z0-9])"; 
String TopDomains = "(?x-i:com\\b \n" + 
| edu\ \b \n" + 
lbiz\\b \n" + 
lin(?:tIlfo)\\b \n" + 
|mil\\b \n" + 
[net \\b \n" + 
lorg\\b a = 
| {a-z} [a-z)\\b \n" + 
) \n" 3 
String Hostname = "(?:" + SubDomain + "\\.)+" + TopDomains; 


// country codes 


String NOT_IN = 
String NOT_END = 
String ANYWHERE = “"[*" + NOT_IN + NOT_END + "]"; 
String EMBEDDED = "[" + NOT_END + "]"; 
String UrlPath = "/"+ANYWHERE + "* ("+EMBEDDED+"+"+ANYWHERE+"+) *"; 
String Url = 
"(?x: \n"+ 
* ANS \n"+ 
## 匹配 hostname \n"+ 
( \n"+ 
(?: ftp | http s? ): // [-\\w])+(\\.\\w[-\\w) *) 4+ \n"+ 
| \n "+ 
”+ Hostname + " \n"+ 


man \n"+ 


"SVP <>()NNIAA\ CONNSA\NRTF-\NXFF® ; 


"i p», 
# + 7 


# 可 能 出 现 端口 号 \n"+ 
(?: s\\d+ )? \n"+ 
\n"+ 

# 下 面 的 部 分 可 能 出 现 ， 以 \ 开 头 \n"+ 
(?: “ + UrlPath + ")? i \n"+ 


)°; 
// 现在 把 正则 表达 式 编译 为 正则 对 象 
Pattern UrlRegex = Pattern.compile(Url); 


// RERSALAPAM, Furl... 





保持 数据 的 协调 性 


Keeping in Syne with Your Data 


我 们 来 看 一 个 长 一 点 的 例子 ， 它 有 点 极端 ， 但 很 清楚 地 说 明了 保持 协调 的 重要 性 (同时 提 
供 了 一 些 保持 协调 的 方法 )。 


假设 , 需要 处 理 的 数据 是 一 系列 连续 的 5 位 数 美国 邮政 编码 (ZIP Codes), 而 需要 提取 的 是 
以 44 开头 的 那些 编码 。 下 面 是 一 点 抽样 ， 我 们 需要 提取 的 数值 用 粗 体 表示 : 


03824531449411615213441829505344272752010217443235 
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最 容易 想到 的 \a\a\d\a\d， 它 能 匹配 所 有 的 邮政 编码 。 在 Perl 中 可 以 用 @zips=m/\d\d\ 
d\d\a/g; 来 生成 以 邮政 编码 为 元 素 的 list (为 了 让 这 些 例 子 看 起 来 更 整洁 , 我 们 假设 需要 处 
理 的 文本 在 Perl 的 默认 目标 变量 $_ 中 ， 见 79)。 如 果 使 用 其 他 语言 ， 也 只 需要 循环 调用 正 
则 表达 式 的 find 方法 。 我 们 关注 的 是 正则 表达 式 本 身 ， 而 不 是 语言 的 实现 机 制 ， 所 以 下 面 
继续 使 用 Perl。 


lA) addaa, 下面 提 到 的 这 一 点 很 快 就 会 体现 出 其 价值 ， 在 整个 解析 过 程 中 ， 这 个 
正则 表达 式 任何 时 候 都 能 够 匹配 一 一 绝对 没有 传动 装置 的 驱动 和 重 试 (我 假设 所 有 的 数据 
都 是 规范 的 ， 此 假设 与 具体 情况 密切 相关 ) 。 


很 明显 ， 把 \avava\a\d 改 为 "44\dva\di 来 查找 以 44 开头 的 邮政 编码 不 是 个 好 办 法 一 一 
匹配 失败 之 后 , 传动 装置 会 驱动 前 进 一 个 字符 , 对 44…! 的 匹配 不 再 是 从 每 个 邮政 编码 的 第 
一 位 开始 。44\da\da\d 会 错误 地 匹配 “…5314494116… " 。 


当然 , 我 们 可 以 在 正则 表达 式 的 开头 添加 “ai, 但 是 这 样 只 能 对 付 一 行文 本 中 的 第 一 个 邮政 
编码 。 我 们 需要 手动 保持 正则 引擎 的 协调 ， 才 能 忽略 不 需要 的 邮政 编码 。 这 里 的 关键 是 ， 
要 跳 过 完整 的 邮政 编码 ， 而 不 是 使 用 传动 装置 的 驱动 过 程 (bump-along) 来 进行 单个 字符 的 
移动 。 


根据 期 望 保持 匹配 的 协调 性 


下 面 列举 了 几 种 办 法 用 来 跳 过 不 需要 的 邮政 编码 。 把 它们 添加 到 正则 表达 式 44\avd\d' 之 
前 ， 可 以 获得 期 望 的 结果 。 非 捕获 型 括号 用 来 匹配 不 期 望 的 邮政 编码 ， 这 样 能 够 快速 地 略 
过 它们 ， 找 到 匹配 的 邮政 编码 ， 在 第 一 个 $1 的 捕获 括号 中 


'(?:(*4]\d\d\d\dl\d(*4] \d\d\d)*.…" 
XPD (brute-force method) 主动 略 过 非 44 开头 的 邮政 编码 (当然 , 用 "01235-9]， 
替代 【^4], 可 能 更 合适 , 但 我 之 前 说 过 , 假设 处 理 的 是 规范 的 数据 )。 注意 , 我 们 不 能 
使 用 “(?:[^4][^4]\a\ad\q)*,， 因 为 它 不 会 匹配 (也 就 无 法 略 过 ) 43210 这 样 不 期 望 
的 邮政 编码 。 

(?:(?!44) \d\d\d\d\d) +e 
这 个 办 法 跳 过 非 44 开头 的 邮政 编码 。 其 中 的 想法 与 之 前 并 无 差别 , 但 用 正则 表达 式 写 
出 来 就 显得 大 不 一 样 。 比 较 这 两 段 描述 和 相关 的 正则 表达 式 就 会 发 现 ， 在 这 里 ， 期 望 
的 邮政 编码 (以 44 开头 ) 导致 逆序 环视 (2144) 失败 ， 于 是 略 过 停止 。 
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(22 \d\d\d\d\d) +t?) 


这 个 办 法 使 用 忽略 优先 量词 ， 只 有 在 需要 的 时 候 才 略 过 某 些 文本 。 我 们 把 它 放 在 真正 
需要 匹配 的 正则 表达 式 前 面 ， 所 以 如 果 那 个 表达 式 失败 ， 它 就 会 匹配 一 个 邮政 编码 。 
忽略 优先 〈…)*?1 导 致 这 一 切 的 发 生 。 因 为 存在 忽略 优先 量词 ，(?: \ava\va\d\d) 4# 
至 都 不 会 尝试 匹配 ， 在 后 面 的 表达 式 失败 之 前 。 昨 号 确保 了 ， 它 会 重复 失败 ， 直 到 最 
终 找到 匹配 文本 ， 这 样 就 能 只 跳 过 我 们 希望 跳 过 的 文本 。 


把 这 个 表达 式 和 '(44\d\a\qd); 合 起 来 ， 就 得 到 ， 
@zips=m/{?:\d\d\d\d\d)*?(44\d\d\d) /g; 

它 能 够 提取 以 44 开头 的 邮编 ， 而 主动 跳 过 其 他 的 邮编 (在 “earray = m/…/g” 的 情况 下 ， 

Perl 会 用 每 次 尝试 中 找到 的 匹配 文本 来 填充 这 个 数组 ,了 311)。 这 个 表达 式 能 够 重复 应 用 于 


字符 串 ， 因 为 我 们 知道 每 次 匹配 的 “起 始 匹配 位 置 ” 都 是 某 个 邮政 编码 的 开头 位 置 ， 也 就 
保证 下 一 次 匹配 是 从 一 个 邮政 编码 的 开始 ， 这 正 是 正则 表达 式 期 望 的 。 





不 匹配 时 也 应 当 保证 协调 性 


我 们 是 否 能 保证 ， 每 次 正则 表达 式 都 在 邮政 编码 字符 串 的 开头 位 置 应 用 ?显然 不 是 ! 我 们 
手动 跳 过 了 不 符合 要 求 的 邮政 编码 ， 可 一 旦 不 需要 继续 匹配 ， 本 轮 匹配 失败 之 后 自然 就 是 
驱动 过 程 和 重 试 ， 这 样 就 会 从 邮政 编码 字符 捉 之 中 的 某 个 位 置 开始 一 一 我 们 的 方法 不 能 处 
理 这 种 情况 。 


再 来 看 数据 样本 : 


03824531449411615213441829503544272 7 5 2 010217443235 

匹配 的 代码 以 粗 体 标注 (第 三 组 不 符合 要 求 )， 主 动 跳 过 的 代码 以 下 画 线 标注 ， 通 过 驱动 过 
程 - 重 试 略 过 的 字符 也 标记 出 来 。 在 44272 匹配 之 后 ， 目 标 文本 中 再 也 找 不 到 匹配 ， 所 以 本 
轮 尝试 宣告 失败 。 但 总 的 尝试 并 设 有 宣告 失败 。 传 动机 构 会 进行 驱动 ， 从 字符 串 的 下 一 -个 
字符 开始 应 用 正则 表达 式 ， 这 样 就 破坏 了 协调 性 。 在 第 四 次 驱动 之 后 ， 正 则 表达 式 略 过 
10217， 错 误 地 匹配 44323, 


如 果 在 字符 串 的 开头 应 用 ， 这 三 个 表达 式 都 没有 问题 ， 但 是 传动 装置 的 驱动 过 程 会 破坏 协 
调 性 。 如 果 我 们 能 取消 驱动 过 程 ， 或 者 保证 驱动 过 程 不 会 添 麻烦 ， 问 题 就 解决 了 。 


办 法 之 一 是 禁止 驱动 过 程 , 即 在 前 两 种 办 法 中 的 (44\a\d\q) 1 之 后 添加 '?1, 将 其 改 为 匹配 
优先 的 可 选项 。 这 样 ， 刻 意 安排 的 !(?:(?!44) \d\vdava\a\vd)*… 或 5(?:[^4l\vavavavdlNa 
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[74] \G\G\ 4) *- 就 只 会 在 两 种 情况 下 停止 : 发 生 符合 要 求 的 匹配 , 或 者 邮政 编码 字符 串 结 
R (这 也 是 此 方法 不 适用 于 第 三 个 表达 式 的 原因 )。 这 样 ， 如 果 存 在 符合 要 求 的 邮政 编码 ， 
'(44\@\qG\d) ?1 就 能 匹配 ， 而 不 会 强迫 回溯 。 


这 个 办 法 仍然 不 够 完善 。 原 因 之 一 是 ， 即 便 目标 字符 串 中 没有 符合 要 求 的 邮政 编码 ， 也 会 
匹配 成 功 ， 接 下 来 的 处 理 程序 会 变 得 更 复杂 。 不 过 ， 其 优点 在 于 速度 很 快 ， 因 为 不 需要 回 
溯 ， 也 不 需要 传动 装置 进行 任何 驱动 过 程 。 


使 用 \G 保证 协调 


更 通用 的 办 法 是 在 这 三 个 表达 式 末 足 添加“\G, (也 130)。 因 为 每 个 表达 式 的 每 次 匹配 都 以 符 
合 要 求 的 邮政 编码 结尾 ,下 次 匹配 开始 时 就 不 会 进行 驱动 。 而 如 果 有 驱动 过 程 ， 开头 的 G 
会 立刻 导致 匹配 失败 ， 因 为 在 大 多 数 流派 中 ， 只 有 在 未 发 生 驱 动 过 程 的 情况 下 ， 它 才能 成 
功 匹配 〈 但 在 Ruby 和 其 他 规定 \GI 表 示 “ 本 次 匹配 起 始 位 置 ” 的 流派 中 不 成 立 灾 131) 


所 以 第 二 个 表达 式 就 变 成 了 : 


@zips = m/\G(?: (?!44)\d\d\d\d\d) *(44\d\d\d)/g; 


匹配 之 后 不 需要 进行 任何 特殊 检查 。 


本 例 的 意义 


我 首先 承认 ， 这 个 例子 有 点 极端 ， 不 过 ， 它 包含 了 许多 保证 正则 表达 式 与 数据 协调 性 的 知 
识 。 如 果 现 实生 活 中 需要 处 理 这 样 的 问题 ， 我 可 能 不 会 完全 用 正则 表达 式 来 解决 。 我 会 直 
接 用 a\a\a\a\al 来 提出 每 个 邮政 编码 , 然后 检查 它 是 否 以 “44 Fk, 在 Perl 中 是 这 样 : 


@zips = ( ); # 确保 数组 为 空 


while (m/(\d\d\d\d\d)/g) { 
$zip = $1; 
if (substr($zip, 0, 2) eq "44") { 
push @zips, $zip; 
} 
} 


对 \G, 有 兴趣 的 读者 请 参考 132 页 的 补充 内 容 ， 尽 管 本 书写 作 时 只 能 举 Perl 的 例子 。 


ltl 
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解析 CSV 文件 


Parsing CSV Files 


解析 CSV (逗号 分 隔 值 ) 文件 有 点 麻烦 ， 因 为 每 个 程序 都 有 自己 的 CSV 文件 格式 。 首 先 来 
看 如 何 解析 Microsoft Excel 生成 的 CSV 文件 ,然后 再 看 其 他 格式 ( 注 3)。 幸 运 的 是 ,Microsoft 
的 格式 是 最 简单 的 。 以 逗号 分 隔 的 值 要 么 是 “纯粹 的 ”( 仅 仅 包 含 在 括号 之 前 )， 要 么 是 在 
双 引 号 之 间 (这 时 数据 中 的 双 引 号 以 一 对 双 引 号 表示 )。 


下 面 是 个 例子 : 
Ten Thousand,10000, 2710 ,,"10,000","It's ""10 Grand"", baby",10K 


这 一 行 包 含 七 个 字段 (fields): 


Ten*Thousand 

10000 

°2710° 

空 字段 

10,000 
It's*"10*Grand", baby 
10K 


为 了 从 此 行 解析 出 各 个 字段 ， 我 们 的 正则 表达 式 需要 能 够 处 理 两 种 格式 。 非 引号 格式 包含 
引号 和 逗号 之 外 的 任何 字符 ， 可 以 用 [^",]+ 匹配 。 


双 引 号 字段 可 以 包含 逗号 、 空 格 ， 以 及 双 引 号 之 外 的 任何 字符 。 还 可 以 包含 连 在 一 起 的 两 
个 双 引 号 。 所 以 , 双 引 号 字段 可 以 由 “"…" 之 间 任 意 数量 的 "[^"]1" "匹配 ,也 就 是 '" (?: [^"] 
Ieru (为 效率 考虑 ， 我 们 可 以 使 用 固化 分 组 '(?>…) ,来 替代 '(?:…),， 不 过 这 个 话题 留 
到 下 一 章 卫 259)， 


综合 起 来 ,[^",]+1"(?:[^"]1"")*") 能 够 匹配 一 个 字段 ,。 这 可 能 有 点 难看 慌 ， 下面 我 们 给 
出 宽松 排列 (了 111) 格式 : 


# 引号 和 过 号 之 外 的 文本 . . . 
[^";]+ 
# .. .或 者 是 ... 
| 
# ... 双 引号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) 
" # 起 始 双 引号 
(?: [*"] | an )* 
" # kai 


注 3: 在 第 6 章 ， 讨论 完 效率 问题 之 后 ， 会 给 出 处 理 Microsoft Excel 的 最 终 程序 (7271), 


www.TopSage.com 


214 第 5 章 : 正则 表达 式 实 用 技巧 


现在 这 个 表达 式 可 以 实际 应 用 到 包含 CSV 文本 行 的 字符 串 上 了 ， 但 如 果 我 们 希望 真正 利用 
匹配 结果 ， 就 应 该 知道 具体 是 哪个 多 选 分 支 匹 配 了 。 如 果 是 双 引 号 字符 种， 就 需要 去 掉 首 
尾 两 端的 双 引 号 ， 把 其 中 紧 挨 着 的 两 个 双 引 号 替换 为 单个 双 引 号 。 


我 能 想到 的 办 法 有 两 个 。 其 一 是 检查 匹配 结果 的 第 一 个 字符 是 否 双 引号 ， 如 果 是 ， 则 去 掉 
第 一 个 和 最 后 一 个 字符 ( 双 引 号 )， 然 后 把 中 间 的 “"" ”替换 为 “”" 。 这 办 法 够 简单 ， 但 如 
果 使 用 捕获 型 括号 会 更 简单 。 如 果 我 们 给 捕获 字段 的 每 个 子 表达 式 添 加 捕获 型 括号 ， 可 以 
在 匹配 之 后 检查 各 个 分 组 的 值 : 


# 引号 和 到 号 之 外 的 文本 .,. 

Ct" J+) 

# asx 或 者 是 ... 
| 

# ... 双 引号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) 
# 起 始 双 引号 

人 
" # 结束 双 引 号 


如 果 是 第 一 个 分 组 捕获 ， 则 不 需要 进行 任何 处 理 ， 如 果 是 第 二 个 分 组 ， 则 只 需要 把 “"” 
替换 为 “"” 即 可 。 


下 面 给 出 Perl 的 程序 ， 稍 后 〈 找 出 某 些 bug 之 后 ) 给 出 Java 和 VB.NET (在 第 10 章 给 出 
PHP 的 程序 ?480)。 下 面 是 Perl 程序 ， 假 设 数据 位 于 sline 中 ， 而 且 已 经 去 掉 了 结尾 的 换 
行 符 (换行 符 不 属于 最 后 的 字段 1)， 


while ($line =~ m{ 
# 引号 和 运 号 之 外 的 文本 . .， 
( [*",]+ ) 
t.. AKR... 
| 
# ... 双 引号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) 
" # 起 始 双 引 号 
{ ae aie WE) Pa Nala | 
" E 结束 双 引 号 
}gx) 
{ 
if (defined $1) { 
$field = $1; 
} else į 
$field = $2; 
$field =~ s/""/"/g; 
} 
print "($field)"; # 输出 Sfield 供 调试 
现在 可 以 处 理 Sfield 了 ... 
} 
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将 其 应 用 于 测试 数据 ， 结 果 为 : 


[Ten*Thousand}] {10000} [*2710°] [10,000] [It's*"i0*Grand",*baby] [10K] 


看 来 没 问 题 ， 但 不 幸 的 是 它 不 会 输出 为 空 的 第 四 个 字段 。 如 果 “ 处 理 sfield” 是 将 字段 的 
值 存 人 数组 ， 完 成 后 访问 数组 的 第 五 个 元 素 得 到 第 五 个 字段 (“10,000")。 这 显然 不 对 ， 因 
为 数组 的 元 素 与 空 字段 不 对 应 。 


想到 的 第 一 个 办 法 是 把 '[^*",]+j 改 为 '[^*,]*!， 这 看 来 是 显而易见 的 ， 但 它 正确 吗 ? 
{Ten*Thousand] [] (i10000] [] (*2710*] [] (] [} [10,000] []{) {It's**10*Grand", = 


E, 现在 出 来 了 一 堆 空 字段 ! 仔细 检查 检查 , 就 不 会 这 么 吃惊 。(…) * 的 匹配 可 以 不 占用 任 
何 字 符 。 如 果真 的 遇 到 空 字段 ， 确 实 能 匹配 ， 那 么 考虑 第 一 个 字段 匹配 之 后 的 情况 呢 ， 此 
时 正则 表达 式 从 “Ten*Thousanad,,10000…” 开 始 应 用 。 如 果 表 达 式 中 没有 元 素 可 以 匹配 去 
号 (就 本 例 来 说 )， 就 会 发 生长 度 为 0 的 成 功 匹 配 。 实 际 上 ， 这 样 的 匹配 可 能 有 无 穷 多 次 ， 
因为 正则 引擎 可 能 在 同一 位 置 重复 这 样 的 匹配 ， 现 代 的 正则 引擎 会 强迫 进行 驱动 过 程 ， 所 
以 同一 位 置 不 会 发 生 两 次 长 度 为 0 的 匹配 (131)。 所 以 每 个 有 效 匹 配 之 间 还 有 一 个 空 匹 
配 ， 在 每 个 引号 字段 之 前 会 多 出 一 个 空 匹配 (而且 数组 末尾 还 会 有 一 个 空 匹配 ， 只 是 此 处 
没有 列 出 来 ) 。 


分 解 驱动 过 程 


要 解决 问题 ， 我 们 就 不 能 依赖 传动 机 构 的 驱动 过 程 来 越过 逗号 。 所 以 ， 我 们 需要 手工 来 控 
制 。 能 想到 的 办 法 有 两 个 : 


1. 手工 匹配 逗号 。 如 果 采 取 此 办 法 ， 需 要 把 逗号 作为 普通 字段 匹配 的 一 部 分 ， 在 字符 串 中 


“迈步 (pace ourselves)”, 
2. 确保 每 次 匹配 都 从 字段 能 够 开始 的 位 置 开 始 。 字 段 可 以 从 行 首 ， 或 者 是 逗号 开始 。 


可 能 更 好 的 办 法 是 把 两 者 结合 起 来 。 从 第 一 种 办 法 (匹配 逗号 本 身 ) HR, ARBRE 
号 出 现在 第 一 个 字段 之 外 的 所 有 字段 开头 。 或 者 ， 保 证 逗号 出 现在 最 后 一 个 字段 之 外 的 所 
有 字段 的 末尾 。 可 以 在 表达 式 前 面 添 加 “1,,， 或 者 后 面 添 加 '$1,，,， 用 括号 控制 范围 。 
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在 前 面 添 加 ， 就 得 到 : 


Pal 

(?: 
# 引号 和 送 号 之 外 的 文本 .... 
(人 

# ... 或 者 是 .. 

| 
# 1... 双 引 号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) 
" # 起 始 双 引号 
| ee) se 9 
" # 结束 双 引 号 

) 


看 起 来 它 应 当 没 错 ， 但 实际 的 结果 却 是 ， 
[Ten*Thousand] [10000] (*2710*) [] [] [000] [) [*baby] [10K] 
而 我 们 期 望 的 是 : 


[Ten*Thousand] [10000] [*2710°] [] [10,000] {It's*"1l0*Grand",*baby] [10K] 


问题 出 在 哪里 呢 ? 似乎 是 双 引 号 字段 没有 正确 处 理 ， 所 以 问题 出 在 它 身 上 ， 对 吗 ? 不 对 ， 
问题 在 前 面 。 或 许 176 页 的 告诫 有 所 帮助 : 如 果 多 个 多 选 分 支 能 够 在 同一 位 置 匹配 ， 必 须 
小 心地 排列 顺序 。 第 一 个 多 选 分 支 [~",]*, 不 需要 匹配 任何 字符 就 能 成 功 ， 除 非 之 后 的 元 
素 强 迫 ， 否 则 第 二 个 多 选 分 支 不 会 获得 尝试 的 机 会 。 而 这 两 个 多 选 分 支 之 后 没有 任何 元 素 ， 
所 以 第 二 个 多 选 分 支 永 远 不 会 得 到 尝试 的 机 会 ， 这 就 是 问题 所 在 ! 


哇 ， 现 在 我 们 已 经 找到 了 问题 所 在 。OK ， 交 换 一 下 多 选 分 支 的 顺序 : 


(?3*|,} 
(2: # 或 者 是 匹配 双 引 号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) nn. 
" # (起 始 双 引号 ) 
( (Fs [^"] | "* )* ) 
" # (起 始 双 引号 ) 
| 
# ..。 或 者 是 引号 和 过 号 之 外 的 文本 . . . 
{ [^",]*) 
) 


HT! BPM ABR T. MRR, HG? 本 节 的 标题 是 “分 解 驱 
动 过 程 ”, 而 最 保险 的 办 法 就 是 以 完整 测试 作为 基础 的 思考 , 故 可 以 用 "G1 来 确保 每 次 匹配 
从 上 一 次 匹配 结束 的 位 置 开始 。 考 虑 到 构建 和 应 用 正则 表达 式 的 过 程 ， 这 样 做 应 该 绝对 没 
问题 。 如 果 在 表达 式 开始 添加 "G1, 就 会 禁止 引擎 的 驱动 过 程 。 我们 希望 这 样 修改 不 会 出 问 
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题 ， 但 是 结果 并 非 如 此 。 之 前 输出 


[Ten*Thousand] [10000] {*2710*] [] [] [000) [] [*baby) [10K] 


的 正则 表达 式 添 加 \G 之 后 ， 得 到 
[Ten-Thousand] [10000] [*2710*] [] [] 


如 果 起 初 没 看 明白 ， 这 样 看 会 更 明显 。 


CSV Processing in Java 


这 里 有 一 个 使 用 Sun 的 java.util.regex 解析 CSYV 的 例子 。 这 段 程 序 着 眼 于 简洁 的 、 
更 有 效 的 版 本 一 一 第 8 章 (7401) 将 会 介绍 。 


import java.util.regex.*; 


String regex = // 把 双 引 号 字段 存 入 group (1)、 非 引号 字段 存 入 group (2) 
AGE 让 全 \n"+ 
lls at \n"+ 

# 要 么 是 双 引 号 字段 ... \n"+ 
\" # 字段 起 始 双 引号 \n"+ 
{he EON" Toe) ASA” F843 \n"+ 
y # 字段 结束 双 引 号 \n"+ 
| # ... BZA... \n"+ 
# 非 引号 非 运 号 文本 ... \n"+ ¢ 
( ea ea = \n"+ 
) yars 
// 创建 使 用 上 面 正 则 表达 式 的 matcher， 暂 时 不 指定 需要 应 用 的 文本 
Matcher mMain = Pattern.compile( regex, Pattern.COMMENTS) .matcher(""); 


// 为 "") 创 建 一 个 matcher， 暂 时 不 指定 需要 应 用 的 文本 


Matcher mQuote = Pattern.compile("\"\"").matcher(""); 


// 上 面 都 是 准备 工作 ， 下 面 的 代码 逐 行 处 理 文 本 
mMain.reset( line); // 下 面 处 理 1ine 中 的 CSV 文本 
while { mMain.find()) 
{ 
String field; 
if ( mMain.start(2) >= 0) 
field = mMain.group(2); // 非 引 号 字段 ， 直 接 使 用 
else 
// 引号 字段 ， 替 摘 其 中 的 成 对 双 引 号 
field = mQuote.reset (mMain.group(1)).replaceAll("\""); 
// 处 理 字 段 ... 
System.out .println("Field [" + field + "]"); 





www.TopSage.com 


218 第 5 章 : 正则 表达 式 实用 技巧 
另 一 个 办 法 


本 节 的 开头 提 到 有 两 种 办 法 正确 匹配 各 个 字段 。 之 二 是 确保 匹配 只 能 在 容许 出 现 字段 的 地 
方 开始 。 从 表面 上 看 ， 这 类 似 于 添加 “1,,， 只 是 使 用 了 逆序 环视 “(?<=^1,)。 


不 幸 的 是 ， 按 照 第 3 章 (7133) 的 解释 ， 即 使 可 以 使 用 逆序 环视 ， 也 不 见得 能 够 使 用 变 长 
的 逆序 环视 ， 所 以 此 方法 可 能 无 法 使 用 。 如 果 问 题 在 于 长 度 可 变 ， 我 们 可 以 把 (?<=^1,)， 
替换 为 (?:^1(?<=, ) ),， 但 是 相 比 第 一 种 办 法 ， 它 太 麻烦 了。 而 且 ， 它 仍然 依赖 传动 装置 
的 驱动 过 程 来 越过 逗号 ， 如 果 别 的 地 方 出 了 什么 差错 ， 它 会 容许 在 “…"10,.000"…” 处 的 
匹配 。 总 的 来 说 就 是 ， 不 如 第 一 种 办 法 保险 。 





不 过 我 们 可 以 略 施 小 计 一 一 要 求 匹配 在 逗号 之 前 (或 者 是 一 行 结束 之 前 ) 结束 。 在 表达 式 
结尾 添加 (?=$1,); 可 以 确保 它 不 会 进行 错误 的 匹配 。 实 际 生活 中 , 我 会 这 样 做 吗 ? 直率 地 
说 我 觉得 第 一 种 方法 很 合用 ， 所 以 遇 到 这 种 情况 我 可 能 不 会 采取 第 二 种 办 法 ， 不 过 如 果 需 
要 ， 这 技巧 却 是 很 有 用 的 。 


进一步 提高 效率 


尽管 在 下 一 章 之 前 都 不 会 谈论 效率 ， 但 对 于 支持 固化 分 组 (139) 的 系统 ， 我 还 是 愿意 在 
这 里 给 出 提高 效率 的 修改 : 把 匹配 双 引 号 字段 的 子 表达 式 从 O: ito” A 
?>[^*]+1"")*。 下 一 页 用 VB.NET 的 例子 做 了 说 明 。 


如 果 像 Sun 的 Java regex package 那样 支持 占有 优先 量词 (了 142)， 也 可 以 使 用 占有 优先 量 
ia], Java CSV 程序 的 补充 内 容 说 明了 这 一 点 。 


这 些 修 改 背后 的 道理 会 在 下 一 章 讲解 ， 最 终 我 们 会 在 271 页 给 出 效率 最 高 的 办 法 。 


其 他 CSV 格式 


Microsoft 的 CSV 格式 很 流行 ， 因 为 它 是 Microsoft 的 CSV 格式 , 但 其 他 程序 可 能 有 不 同 格 
A, 我 见 过 的 情况 还 有 : 


。 ”使 用 任意 字符 ， 例 如 ' ; ' 或 者 制 表 符 作为 分 隔 。( 不 过 这 样 名 字 还 能 叫 “ 逗 号 分 隔 值 ” 
吗 ? ) 


° 容许 分 隔 符 之 后 出 现 空格 ， 但 不 把 它们 作为 值 的 一 部 分 。 
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。 ”用 反 斜 线 转 义 引号 (例如 用 “\"” 而 不 是 ““" ”类 表示 值 内 部 的 引号 )。 通 常 这 意味 着 
反 斜 线 可 以 在 任何 字符 前 出 现 ( 并 忽略 )。 


这 些 变化 都 很 容易 处 理 。 第 一 种 情况 只 需要 把 逗号 替换 为 对 应 的 分 隔 符 ， 第 二 种 只 需要 在 
第 一 个 分 隔 符 之 后 添加 疏 s*,， 例 如 以 “3?:^1 er 开头 。 


第 三 种 情况 , 我 们 可 以 用 之 前 的 办 法 (7198), HE a ERR 当然 ， 
我 们 必须 把 后 面 的 e/""/"/g 改 为 更 通用 的 se/\\(.)/$1/g， 或 者 对 应 语言 中 的 代码 。 


VB.NET 的 CSV 处 理 


Imports System.Text.RegularExpressions 


Dim FieldRegex as Regex = New Regex ( 
Ss 
a 
: (?# 要 么 是 双 引 号 字段 ...) 
" "u (?# 字段 起 始 双 引号 ) 
“ { {?> [**"} 4+ | “hon )* ) 
" e" (28 字段 结束 双 引 号 ) 
EIP. ce. BE cael 


(2# ... 非 引 号 非 过 号 文本 ...) 
E ai A 
“ )", RegexOptions.IgnorePatternWhitespace) 
Dim QuotesRegex as Regex = New Regex(" "" "n ") ' 双 引 号 字符 囊 


RR 


Dim FieldMatch as Match = FieldRegex.Match (Line) 
While FieldMatch.Success 
Dim Field as String 
If FieldMatch.Groups(i).Success 
Field = QuotesRegex.Replace(FieldMatch.Groups(1).Value, *""") 
Else 
Field = FieldMatch.Groups(2).Value 
End If 


Console.WriteLine("{" & Field & "]") 
' 现在 可 以 处 理 'Field' 


FieldMatch = FieldMatch.NextMatch 
End While 





iii 
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Crafting an Efficient Expression 


Perl、Java、.NET、Python 和 PHP (这 里 没有 列 全 ， 其 他 语言 请 参考 第 145 页 的 表格 ) 使 
用 的 都 是 表达 式 主导 的 NFA 引擎 ,细微 的 改变 就 可 能 对 匹配 的 结果 及 方 式 产生 重大 的 影响 。 
DFA 中 不 存在 的 问题 ， 对 NFA 来 说 却 很 重要 。 因 为 NFA 引擎 容许 用 户 进行 精确 控制 ， 所 
以 我 们 可 以 用 心 打 造 (译注 1) 正则 表达 式 ， 但 对 不 熟悉 的 人 来 说 ， 这 样 可 能 会 带 来 麻烦 。 
本 章 讲解 的 就 是 调 校正 则 表达 式 的 诀窍。 


调 校 表 达 式 时 需要 考虑 的 两 个 因 素 是 准确 性 和 效率 ， 精 确 匹配 我 们 需要 的 文本 ， 不 包含 多 

the 54 sey pT ot 现在 我 们 来 考察 NFA 引擎 的 效 
率 ， 以 及 如 何 有 效 地 利用 这 些 知 识 《我 们 会 在 合适 的 时 候 提 到 DFA 的 问题 ， 不 过 本 章 主要 
关注 的 还 是 基于 NFA 的 引擎 ) 总 的 来 办 在 于 彻底 理解 加 尖 朋 后 的 过 程 学 习 些 技 
waa, wean eee oti 制 的 细 划 之 后 ， 读 者 不 但 能 够 把 匹配 的 速度 提 
到 最 高 ， 写 更 复杂 的 正 由 表达 \ 时 也 会 更 有 信心 。 



















本 章 内 容 


OEE, AA PAJURA 
ja et 然后 我 们 会 考 

的 实质 性 影响 ， 还 要 讲解 ， 针 对 
ua, 传授 一 些 终极 技巧 ， 


为 了 让 读者 彻底 掌握 这 此 知识 | Bae 
m, ana UA 的 影响 
察 一 些 常见 的 内 部 
具体 实现 方式 ,条 
来 构建 快 如 二 地 


译注 1: 此 处 craft 翻译 为 “打造 ”"， 下 安利 有 时 翻译 为 “ 调 校 ” 
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测试 与 回溯 


我 们 将 看 到 的 例子 代表 了 使 用 正则 表达 式 时 经 常 遇 到 的 情况 。 在 分 析 某 个 的 正则 表达 式 的 
效率 时 ， 我 有 时 会 列 出 正则 引擎 在 匹配 过 程 中 进行 的 独立 测试 (individual test) 的 次 数 。 如 
果 用 正则 表达 式 marty 匹配 smarty， 一 共 会 进行 6 次 独立 测试 ， 首 先是 m 对 s (匹配 失 
败 )， 然 后 是 mitm, ‘aR a, 依次 继续 。 我 通常 会 给 出 回溯 的 次 数 ( 本 例 中 回溯 次 数 为 0， 
不 过 ， 正 则 引擎 的 传动 装置 必然 会 在 第 二 个 字符 处 重 试 正 则 表达 式 ， 这 或 许可 以 算 作 一 次 
maA) 


之 所 以 要 列 出 这 些 数字 ， 并 不 是 为 表明 精确 性 ,而 是 因为 它们 比 “ 许 多 ”、“ 少 量 "、“ 多 次 ”、 
“更 好 ”"、“ 不 太 多 ”之 类 更 为 准确 。 我 的 意思 不 是 说 ， 在 NFA 上 使 用 正则 表达 式 需 要 精确 
地 考察 测试 和 回溯 的 次 数 ， 我 只 是 希望 让 读者 知道 这 些 例子 的 相对 优 劣 。 


男 一 个 重要 的 问题 是 ， 你 必须 意识 到 这 些 “ 精 确 ” | 的 数字 可 能 根据 工具 的 不 同 而 有 所 不 同 。 
我 期 望 读 者 能 够 知道 ， 它 只 是 钊 对 具体 例 忆 的 、 相 对 的 粗略 表现 。 不 同 工 具 之 间 的 一 个 重 
要 区 别 就 是 ， 它 们 可 能 使 用 的 优化 措施 不 同 。 如 果 能 够 预先 判断 目标 字符 串 基 本 无 法 匹配 
(例如 目标 字符 捉 缺 少 一 个 引擎 能 够 预知 的 ， 匹 配 成 功 必 须 的 字符 )， 足 够 聪明 的 实现 方式 
可 以 完全 不 应 用 正则 表达 式 。 我 在 本 章 讨论 宪 这 些 重 要 的 优化 措施 ， 不 过 普遍 原理 比 具体 
问题 更 为 重要 。 


传统 型 NFA 还 是 POSIX NFA 


在 分 析 效 率 时 ， 一 定 不 要 忘记 所 使 用 工具 的 引擎 类 型 : 传统 型 NFA 还 是 POSIX NFA。 下 一 
节 中 我 们 会 看 到 ， 有 些 问题 只 对 某 种 引擎 存在 。 有 的 改变 可 能 对 其 中 之 一 没有 影响 ， 对 另 
一 个 却 有 极 大 的 影响 。 还 是 那 句 话 ， 理 解 基本 原理 ， 就 能 应 付 各 种 情况 。 


典型 示例 


A Sobering Example 


首先 来 看 一 个 真正 体现 回溯 和 效率 的 重要 性 的 例子 。 在 198 页 , RHA” O Ane 
来 匹配 引号 字符 串 , 其 中 容许 出 现 转 义 的 双 引 号 。 这 个 表达 式 没有 错 , 但 如 果 我 们 使 用 NFA 
引擎 ， 对 每 个 字符 都 应 用 多 选 结构 的 效率 就 会 很 低 。 对 字符 申 中 每 个 “正常 ”( 非 转 义 、 非 
引用 ) 的 字符 来 说 ， 这 个 引擎 需 要 测试 \ .,， 遇 到 失败 后 回 滴 ， 最 终 由 [~^\\" 11 匹配。 如 
果 效 率 不 容 忽 视 ， 就 应 该 做 些 改 动 来 加 快 匹配 速度 。 
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稍 加 修改 一 一 先 迈 最 好 使 的 腿 


A Simple Change—Placing Your Best Foot Forward 


对 于 一 般 的 双 引 号 字符 串 来 说 ， 普 通 字符 的 数量 比 转 义 字 符 要 多 ， 一 个 简单 的 改动 就 是 调 
换 两 个 多 选 分 支 的 顺序 , 把 I^\\"], 放 到 \ 八 ., 之 前 。 这 样 ， 只 有 在 遇 到 字符 串 中 的 转 义 字 
符 时 才 会 按照 多 选 结构 进行 回溯 (还 有 一 次 回溯 是 星 号 无 法 匹配 引起 的 ， 此 时 所 有 的 多 选 
分 支 都 匹配 失败 ， 所 以 整个 多 选 结构 无 法 匹配 )。 图 6-1 说 明了 其 中 的 差异 。 稍 头 数量 的 减 
少 ， 说 明 第 一 个 多 选 分 支 的 成 功 匹 配 次 数 增加 了 ， 也 就 是 说 回溯 的 次 数 减 少 了 。 


正则 表达 式 
EE | TANNJ) * "| aN likeness" 


(P| VN.) * ") “aN ny“ ER 


{多 选 结构 回溯 发 生 的 位 置 





6-1: 多 选 分 支 排列 顺序 的 影响 (传统 型 NFA) 
请 从 下 面 几 个 方面 评价 这 个 修改 : 
。 ” 哪 种 引擎 从 中 获 益 ?传统 型 NFA， 或 者 POSIX NFA ， 或 是 两 者 ? 


。 “什么 情况 下 ， 这 种 修改 带 来 的 收益 最 大 ? 在 文本 能 够 匹配 时 ， 无 法 匹配 时 ， 还 是 所 有 
时 候 。 


o 请 思考 这 些 问题 ， 翻 到 下 一 页 查看 答案 。 在 阅读 下 一 节 以 前 ， 务 必 理 解答 案 (及 原因 )。 
效率 vs 准确 性 
Efficiency Versus Correctness 


为 提高 效率 修改 正则 表达 式 时 最 需要 考虑 的 问题 是 ， 改 动 是 否 会 影响 匹配 的 准确 性 。 像 上 
面 那样 重新 安排 多 选 分 支 的 顺序 ， 只 有 在 排序 与 匹配 成 功 无 关 时 才 不 会 影响 准确 性 。 前 一 
章 出 现 的 "(\\.1[^"])*" (7197) 的 例子 是 有 缺陷 的 。 如 果 正 则 表达 式 只 需要 (should) 
应 用 于 格式 正确 的 字符 串 ， 此 问题 永远 也 不 会 暴露 出 来 。 如 果 认 为 这 个 表达 式 很 不 错 ， 改 
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稍 加 改动 的 效果 


4 223 页 问题 的 答案 


哪 种 引擎 从 中 获 益 ? 这 种 改动 对 POSIX NFA 没有 影响 ,因为 它 最 终 必 须 党 试 正则 表达 
式 的 每 一 种 可 能 ， 多 选 分 支 的 顺序 其 实 不 重要 。 不 过 ， 对 传统 型 NFA 来 说 ， 这 样 提高 
速度 的 多 选 分 支 重 排序 是 有 利 的 ， 因 为 引 党 一 旦 找到 匹配 结果 就 会 停 下 来 。 


什么 样 的 情况 下 会 有 效果 ? 只 有 匹配 成 功 时 才 会 加 快速 度 。 只 有 在 尝试 所 有 的 可 能 (再 
说 一 次 ，POSIX NFA 任何 情况 下 都 会 尝试 所 有 可 能 ) ZÉ, NFA 才 可 能 失败 。 所 以 如 
果 确 实 不 能 匹配 ， 每 种 可 能 都 会 被 尝试 ， 所 以 排列 顺序 没有 影响 。 


下 表 列 出 了 Rohl ah dich hat vaste cea 


"makudonarudo" 
"Very…99 more chars 
"long" 


"No \"match\" herell24 Js6 liz4 8 li24 8 
我 们 发 现 ， 两 个 表达 式 在 POSIX NFA 中 的 情况 是 一 样 的 ， 而 修改 之 后 ， 传 统 型 NFA 
的 表现 提升 了 (减少 了 回溯 ) 。 而 在 不 能 匹配 的 情况 下 (最 后 一 行 ) ， 因 为 两 种 引擎 必 
须 尝 试 所 有 的 可 能 ， 结 果 就 是 一 样 的 。 





动 的确 提 高 了 效率 ， 我 们 就 会 遇 到 真正 的 问题 。 交 换 多 选 分 支 ， 把 '["], 放 在 前 面 ， 避 免 
表达 式 进 行 不 正确 的 匹配 ， 如 果 目 标 字符 串 包含 一 个 转 义 的 双 引 号 : 


"You need a 2\"3\" photo.” 





所 以 ， 在 关注 效率 的 时 候 ， 万 不 可 忘记 准确 性 。 
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继续 前 进 一 一 限制 匹配 优先 的 作用 范围 


Advancing Further—Localizing the Greediness 


从 图 6-1 可 以 看 出 ,在 任意 正则 表达 式 中 , 星 号 会 对 每 个 普通 字符 进行 迭代 (或 者 说 “重复 ”)， 
重复 进入 -退出 多 选 结构 (和 括号 )。 这 需要 成 本 ,也 就 是 额外 的 处 理 一 一 如 果 可 能 ,我 们 必 
须 避 免 这 些 额外 处 理 。 


有 一 次 , 在 处 理 这 类 正则 表达 式 时 ,我 想到 一 个 优化 的 办 法 ， 考 虑 到 "IT^\\"], 匹 配 “ 普 通 ” 

( 非 引号 ， 非 反 斜 线 ) KI, EA AV + 会 在 (…)* 的 一 次 迭代 中 读 入 尽 可 能 多 的 字 
符 。 对 没有 转 义 字 符 的 字符 串 来 说 ， 这 样 会 一 次 读 人 整个 字符 串 。 于 是 就 几乎 不 会 进行 回 
滴 ， 也 就 把 星 号 迭代 的 次 数 减少 到 最 小 。 我 很 为 自己 的 发 现 而 高 兴 


我 们 会 在 本 章 更 深入 地 考察 这 个 例子 , 不 过 看 一 眼 统计 数据 会 清楚 地 发 现 好 处 。 图 6-2 展示 
了 传统 型 NFA 上 应 用 这 个 例子 的 情况 。 比 较 原来 的 (\\.1[^\\"])*"， (上面 的 两 个 表达 
式 )， 与 多 选 结构 相关 的 回 湖 和 星 号 迭代 都 减少 了 。 下 面 的 两 个 例子 说 明 ， 结 合 之 前 的 重 排 
序 技巧 ， 这 种 修改 会 带 来 更 多 的 收益 。 


正则 表达 式 


IEE  TECLASY DRAT : aad 


™ (S| CANNED * " 


C E | NIN) * 9 
-NNN | NINE) * =, 


/多 选 结构 回溯 发 生 的 位 置 





图 6-2: 添加 加 号 的 结果 (传统 型 NFA) 


新 增 的 加 号 大 大 减少 了 多 选 结构 回溯 的 次 数 ， 以 及 星 号 的 迭代 次 数 。 星 号 量词 作用 于 括号 
内 的 子 表达 式 , 每 次 迭代 都 需要 进入 然后 再 退出 括号 , 这 都 需要 成 本 ,因为 引擎 需要 记录 
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aa err E E E in 


括号 内 的 子 表达 式 匹 配 的 文本 (本 章 会 深入 探讨 此 问题 )。 


表 6-1 与 第 224 页 答案 中 的 表格 类 似 , 不 过 表达 式 不 同 ,另外 还 给 出 了 星 号 的 迭代 次 数 。 在 
每 种 情况 下 ， 独 立 测试 次 数 和 回溯 次 数 的 增加 都 很 有 限 ， 但 是 迭代 次 数 有 了 显著 降低 ， 这 
是 很 大 的 进步 。 


表 6-1: 传统 型 NFA 的 匹配 效率 


字符 串 

测试 “| 回溯 | eet | 测试 “| 回溯 | ee 
"2\"x3\" Likeness? a fa fas [z 6 
"Very . . .99 more chars. . .1ong， Ea 112 2 


实测 


Reality Check 


是 的 ， 我 对 自己 的 发 现 颇 为 得 意 。 但 这 个 看 起 来 很 奇妙 的 “改动 ”不 过 是 场 还 未 爆发 的 灾 
难 。 你 可 能 注意 到 了 ， 在 考察 它 的 各 项 指标 时 ， 我 没有 给 出 POSIX NFA 的 统计 数据 。 如 果 
这 样 做 ， 你 可 能 会 很 惊奇 地 发 现 "very* …… '1ong" 的 匹配 需要 超过 3 亿 亿 亿 次 (实际 上 是 
324 518 553 658 426 726 783 156 020 576 256) 回溯 .说 简单 点 就 是 ， 回 溯 是 个 天 文 数字 。 
这 需要 超过 50 百 亿 亿 (quintillion) 年 ， 或 者 是 若干 千 万 亿 个 千年 ( 注 1)。 


确实 很 出 平 意料 ! 那么 ， 为 什么 会 发 生 这 种 情况 呢 ? 简单 地 说 ， 原 因 在 于 一 一 这 个 正则 表 
达 式 中 某 个 元 素 受 加 号 限定 的 同时 ， 还 受 括号 外 的 星 号 限定 ， 无 法 区 分 哪个 量词 控制 哪个 
特殊 的 字符 。 这 种 不 确定 性 就 是 症结 。 下 一 节 给 出 了 详细 解释 。 


指数 级 ”匹配 
没有 添加 星 号 时 ，[^\\"] 是 星 号 的 约束 对 象 ， 真 正 的 '([^\\"] )w 能够 匹配 的 字符 是 有 限 
的 。 它 先 匹 配 一 个 字符 ， 然 后 匹配 下 一 个 字符 ， 如 此 继续 ， 最 多 就 是 匹配 目标 文本 中 的 每 


个 字符 。 它 也 可 能 无 法 匹配 目标 字符 串 中 的 所 有 字符 ， 不 过 ， 充 其 量 ， 匹 配 字符 的 个 数 与 
目标 字符 串 的 长 度 成 线性 关系 。 目 标 字符 串 越 长 ， 可 能 的 工作 量 相对 也 越 大 。 


注 1: 这 个 数字 是 根据 其 他 测试 估算 出 来 的 ， 我 可 没有 那么 长 的 时 间 来 测试 。 
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BÈ, 对 正则 表达 式 的 '( [~^\\"]+)* 来 说 ,加 号 和 星 号 二 者 分 割 (divvy up) 字符 串 的 可 能 

性 是 成 指数 形式 增长 的 。 如 果 目 标 字符 串 是 makuaonarudo， 是 星 号 会 迁 代 12 次 ， 每 一 次 

迭代 中 【it 匹 配 一 个 字符 〈 就 像 这 样 “qakyqenaryS9 ) ? 还 是 星 号 迭代 3 次 ， 内 部 

的 [^\\ "+ 分 别 匹配 5. 3, 4 个 字符 (‘makudonarudo’) ? 或 者 2、2、5、3 个 字符 
(‘makudonarudo’) ? 还 是 其 他 …… 





你 现在 知道 ， 存 在 许多 种 可 能 (对 长 度 为 12 的 字符 串 存 在 4096 种 可 能 )。 字 符 串 中 的 每 个 
字符 ， 都 存在 两 种 可 能 ，POSIX NFA 在 给 出 结果 之 前 必须 尝试 所 有 可 能 。 这 就 是 “指数 级 
匹配 ”的 来 历 。 我 还 听 说 过 一 个 不 错 的 名 字 :“ 超 线性 (super-linear)”。 


无 论 叫 什么 名 字 ， 终 归 都 是 回 滴 ， 大 量 的 回溯 (TE 2)! 12 个 字符 需要 4 096 种 可 能 ， 这 可 
能 不 需要 多 久 时 间 ， 不 过 20 个 字符 需要 超过 一 百 万 种 可 能 ， 时 间 长 达 若干 秒 。30 个 字符 ， 
就 需要 超过 十 亿 种 可 能 ， 长 达 若 干 小 时 ， 如 果 是 40 个 字符 ， 就 需要 一 年 多 的 时 间 。 这 显然 
不 是 什么 好 事情 。 


你 可 能 会 想 ,“ 没 关系 ，POSIX NFA 并 不 常见 。 我 知道 我 的 工具 用 的 是 传统 型 NFA， 所 以 
这 问题 对 我 不 存在 。” 的 确 ，POSIX NFA 和 传统 型 NFA 的 主要 差别 在 于 ， 传 统 型 NFA 在 遇 
到 第 一 个 完整 匹配 可 能 时 会 停止 。 如 果 没 有 完整 匹配 ， 即 使 是 传统 型 NFA 也 需要 尝试 所 有 
的 可 能 ， 在 找到 之 前 。 即 使 是 前 面 提 到 的 "No*\"match\"*here 这 样 短 短 的 字符 串 ， 在 报告 
失败 之 前 ， 也 需要 尝试 8 192 种 可 能 。 


在 正则 引擎 忙于 尝试 这 些 数量 庞大 的 可 能 时 ， 整 个 程序 看 起 来 好 像 “ 锁 死 (lock up)” 了 。 
我 第 一 次 遇 到 这 种 情况 时 ， 以 为 自己 发 现 了 程序 的 bug， 不 过 现在 我 理解 了 , 现在 我 把 这 个 
正则 表达 式 加 入 自己 的 正则 表达 式 工 具 包 里 ， 用 来 测试 引擎 的 类 型 。 


。 如果 其 中 的 某 个 表达 式 ， 即 使 不 能 匹配 ， 也 能 很 快 给 出 结果 ， 那 可 能 就 是 DFA。 
° 如果 只 有 在 能 够 匹配 时 才 很 快 出 结果 ， 那 就 是 传统 型 NFA, 
° ”如 果 总 是 很 慢 ， 那 就 是 POSIX NFA, 


第 一 个 判断 中 我 使 用 了 “可 能 ”这 个 单词 ， 因 为 经 过 高 级 优化 的 NFA 没准 能 检测 并 且 避 免 
这 些 指数 级 的 无 休止 (neverending) 匹配 ( 详 见 本 章 后 文字 2$0) 。 同 样 ， 我 们 会 见 到 各 种 方 
法 来 改进 或 重 写 这 些 表达 式 ， 加 快 它们 匹配 或 报错 的 速度 。 


注 2: 给 感 兴趣 的 读者 两 个 数字 ， 长 度 为 的 字 桂 事 ， 回 溯 的 次 数 是 2"!， 独 立 测 试 的 次 数 为 


gh l +2" ` 


iti 
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前 面 列 出 的 几 点 表明 ， 如 果 排 除 某 些 高 级 优化 的 影响 ， 就 能 根据 正则 表达 式 的 相对 性 能 判 
断 引 擎 的 类 型 。 这 就 是 第 4 章 中 (7146) 我 们 能 用 某 些 正则 表达 式 来 “测试 引擎 的 类 型 ” 
的 原因 。 


当然 ， 不 是 每 点 改动 都 会 带 来 像 本 例 一 样 的 灾难 性 后 果 ， 不 过 除非 知道 正则 表达 式 的 幕后 
原理 ， 否 则 在 实际 运行 之 前 永远 不 能 判断 后 果 。 为 此 ， 本 章 考 察 了 各 种 例子 的 效率 和 后 果 。 
不 过 ， 对 许多 事 来 说 ， 牢 固 理解 基本 概念 对 深入 学 习 是 非常 重要 的 ， 所 以 ， 在 讲解 指数 级 
匹配 之 前 ， 我 们 不 妨 仔细 复习 复习 回潮 。 


全 面 考察 回 湖 


A Global View of Backtracking 


从 局 部 来 看 ， 回 滴 就 是 倒退 至 未 尝试 的 分 支 。 这 很 容易 理解 ， 但 是 回溯 对 整个 匹配 影响 并 
不 容易 理解 。 在 本 节 ， 我 们 会 详细 考察 回溯 在 匹配 成 功 和 不 成 功 时 的 各 种 细节 ， 尝 试 从 中 
发 据 出 一 些 东 西 。 

先 来 仔细 看 看 前 一 章 的 几 个 例子 ， 在 165 页 ， 我 们 把 ".*", 应 用 到 下 面 的 文本 : 


The name "McDonald's" is said "makudonarudo" in Japanese 
匹配 过 程 如 图 6-3 所 示 。 


正则 表达 式 会 从 字符 串 的 起 始 位 置 开 始 依次 尝试 每 个 字符 , 但 是 因为 开头 的 引号 无 法 匹配 ， 
此 后 的 字符 也 不 能 匹配 ， 直 到 尝试 进行 到 标记 位 置 A。 接 着 尝试 表达 式 的 其 他 部 分 ， 但 是 
传动 装置 (7148) 知道 如 果 这 种 尝试 不 成 功 ， 整 个 表达 式 可 以 从 下 一 个 位 置 开始 尝试 。 


然后 .*| 匹配 直到 字符 串 末 尾 , 此 时 点 号 无 法 匹配 , 所 以 星 号 停止 和 迭代。 因为.* 匹配 成 功 
可 以 不 需要 任何 字符 ， 所 以 在 此 过 程 中 引擎 记录 了 46 TREE. 现在 '.*, 停 止 了 ， 引 
擎 从 最 后 保存 的 状态 开始 回 滴 ， 在 “…anise ”处 开始 尝试 .* "。 


也 就 是 说 ， 我 们 在 字符 串 的 末尾 尝试 匹配 表示 结束 的 双 引 号 。 不 过 ， 在 这 里 双 引 号 同样 无 
法 匹配 ， 所 以 尝试 仍然 失败 。 然 后 引擎 继续 回 滴 、 尝 试 ， 结 果 同 样 是 无 法 匹配 。 
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et E 


© ”尝试 并 匹配 失败 
回溯 并 尝试 ， 匹 配 失败 
一 一 > 正则 表达 式 元 素 成 功 匹 配 的 文本 





图 6-3:“.*" 的 成 功 匹 配 过 程 


引擎 倒 过 来 尝试 (最 后 保存 的 状态 排 在 最 先 ) 从 A 到 B 保存 的 状态 ， 首 先是 从 B 到 C。 在 
进行 了 多 次 尝试 之 后 到 达 这 个 状态 : 正则 表达 式 中 的 ".*,", 对 应 字符 串 中 的 …arudo." 
“in"Japa…， 也 就 是 C 所 标注 的 位 置 。 此 时 匹配 成 功 ， 于 是 我 们 在 D 位 置 得 到 全 局 匹配 。 


The name "McDonald's" is said "Makudonarudo" in Japanese 


这 就 是 传统 型 NFA 的 匹配 过 程 ， 剩 下 的 未 使 用 状态 将 被 抛弃 ， 报 告 匹配 成 功 。 





POSIX NFA 需要 更 多 处 理 


More Work for a POSIX NFA 


我 们 已 经 介绍 过 , POSIX NFA 的 匹配 是 “到 目前 为 止 最 长 的 匹配 ”, 但 是 仍然 需要 尝试 所 有 
保存 的 状态 ， 确 认 是 否 存在 更 长 的 匹配 。 我 们 知道 ， 对 本 例 来 说 ， 第 一 次 找到 的 匹配 就 是 
最 长 的 ， 但 正则 引擎 需要 确认 这 一 点 。 


所 以 ， 在 保存 的 所 有 状态 中 ， 除 了 两 个 能 够 匹配 双 引号 的 可 能 之 外 ， 其 他 都 会 在 尝试 后 立 
即 被 放弃 。 所 以 ， 尝 试 过 程 D-E-F 和 F-G-H 类 似 B-C-D， 只 是 F 和 了 H 会 被 放弃 ， 因 为 它 
们 匹配 的 文本 比 D 的 要 短 。 


在 I 位 置 能 进行 的 回溯 是 “启动 驱动 过 程 , 进行 下 一 轮 尝试 (bump-along and retry)”, 不过， 
因为 从 A 位 置 开始 的 尝试 能 够 找到 匹配 (实际 上 是 三 个 )，POSIX NFA 引擎 最 终 停 下 来 ， 
报告 在 D 位 置 的 匹配 。 
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无 法 匹配 时 必须 进行 的 工作 


Work Required During a Non-Match 


PD Hs ED i ACH EACH AT. Baia |". FER DCR IE Pe AS, 但 是 它 在 匹配 过 
程 中 仍然 会 进行 许多 工作 。 我 们 将 会 看 到 ， 工 作 量 增 大 了 许多 。 


图 6-4 说 明了 这 些 。A-I 序 列 类 似 图 6-3。 区 别 在 于 , 在 位 置 D 无 法 匹配 (因为 结尾 的 问号 ) 。 
另 一 点 区 别 在 于 , 图 6-4 中 的 整个 尝试 序列 是 传统 型 NFA 和 POSIX NFA 都 必须 经 历 的 : 如 
果 无 法 匹配 ， 传 统 型 NFA 必须 进行 的 尝试 与 POSIX NFA 一 样 多 。 


> ”尝试 并 匹配 失败 
回溯 并 尝试 ,匹配 失败 
一 一 一 > 正则 表达 式 元 素 成 功 匹 配 的 文本 


ES 


< R 


i; 


A = a CEN x pay : 
X= ee 


ANNE 人 Y 





图 6-4; (ne 匹配 失败 的 经 过 


因为 从 开始 的 A 到 结束 的 工 的 所 有 尝试 都 不 存在 匹配 ， 传 动 装置 必须 启动 驱动 过 程 开 始 新 
HŽ. MJ, Q、V 开始 的 尝试 看 来 有 可 能 匹配 成 功 , 但 结果 都 与 从 A 开始 的 尝试 一 样 。 
最 终 到 Y, 不 存在 继续 尝试 的 途径 ， 所 以 整个 尝试 宜 告 失败 。 如 图 6-4 所 示 ， 得 到 这 个 结果 
花费 了 许多 工夫 。 


www.TopSage.com 


全 面 考察 回溯 231 


看 清楚 一 点 


Being More Specific 


我 们 把 点 号 换 成 [^"] 来 做 个 比较 。 前 一 章 已 经 讨论 过 ， 这 样 的 结果 更 容易 理解 ， 因 为 它 
能 匹配 的 字符 更 少 ， 而 且 这 样 一 来 ， 正 则 表达 式 的 效率 也 提高 了 。 如 果 使 用 …[^"]*"!， 
'[^"]* 匹 配 的 内 容 就 不 能 包括 双 引 号 ， 减少 了 匹配 和 回溯 。 


图 6-5 说 明了 尝试 失败 的 过 程 (请 对 比 图 6-4)。 从 图 中 可 以 看 到 ， 回 溯 的 次 数 大 大 减少 了 。 
如 果 这 个 结果 满足 我 们 的 需要 ， 减 少 的 回溯 就 是 有 益 的 伴随 效应 (side effect), 


尝试 并 匹配 失败 
回溯 并 尝试 ， 匹 配 失败 
正则 表达 式 元 素 成 功 匹 配 的 文本 





图 6-5:"" [^"]*" 1 无 法 匹配 


多 选 结构 的 代价 很 高 


Alternation Can Be Expensive 


多 选 结构 或 许 是 回溯 的 主要 原因 。 举 个 简单 的 例子 ,用 makudonarudo 来 比较 lviwixly1z 
和 [uvwxyz]) 的 匹配 。 字符 组 一 般 只 是 进行 简单 测试 ( 注 3), 所 以 'ruvwxyz] 只 需要 进行 
34 次 尝试 就 能 匹配 。 


The name "McDonald's" is said “makpdonarudo" in Japanese 


注 3: 不 同 实现 方式 的 效率 可 能 存在 差异 ， 但 总 的 来 说 字符 组 的 效率 要 比 相应 的 多 选 结构 高 。 
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如 果 使 用 'u1viw|xly1z, 则 需要 在 每 个 位 置 进 行 6 次 回溯, 在 得 到 同样 结果 之 前 总 共有 204 
次 回 滴 。 当 然 ， 并 不 是 每 个 多 选 结构 都 可 以 替换 为 字符 组 ， 即 使 可 以 ， 也 不 见得 会 这 么 简 
单 。 不 过 ， 在 某 些 情 况 下 ， 我 们 将 要 学 习 的 技巧 能 够 大 大 减少 与 匹配 所 须 的 多 选 结构 相关 
的 回潮 。 


理解 回溯 可 能 是 学 习 NFA 效率 中 最 重要 的 问题 ， 但 所 有 的 问题 不 只 于 此 。 正 则 引擎 的 优化 
措施 能 够 大 大 提升 效率 。 在 本 章 后 面 ， 我 们 将 详细 考察 正则 引擎 要 做 的 工作 和 优化 手段 。 


性 能 测试 


Benchmarking 


本 章 主要 讲解 速度 和 效率 ， 而 且 会 时 常 使 用 性 能 测试 ， 所 以 我 希望 介绍 一 些 测 试 的 原则 。 
我 会 用 几 种 语言 来 介绍 简单 的 测试 方法 。 


基本 的 性 能 测试 就 是 记录 程序 运行 的 时 间 : 先 取 系统 时 间 ， 运 行程 序 ， 再 取 系 统 时 间 ， 计 
算 两 者 的 差 , 就 是 程序 运行 的 时 间 。 举 个 例子 , 比较 “(alblcldalelfig)+S 入 [a-gl+S$i。 
先 来 看 Pel 的 表现 ， 然 后 再 来 看 其 他 语言 。 下 面 是 简单 的 Pel 程序 (不 过 ,我们 将 会 看 到 ， 
这 个 例子 有 人 欠缺) : 

use Time::HiRes 'time'; # 这 样 Cime() 的 返回 值 更 加 精确 

$StartTime = time(); 

“abababdedfg" =~ m/*(albic|/dle|f£1lg)+$/; 


S$EndTime = time(); 
printf("Alternation takes %.3f seconds.\n", SEndTime - $StartTime); 


$StartTime = time(); 

“abababdedfg" =~ m/*[a-g]+$/; 

SEndTime = time(); 

printf ("Character class takes %.3f seconds.\n", $EndTime - $StartTime); 


它 看 来 (而 且 也 确实 是 ) 很 简单 ， 但 是 在 进行 性 能 测试 时 ， 我 们 需要 记 住 几 点 : 
。 ”只 记录 “真正 关心 的 (interesting)” 处 理 时 间 。 尽 可 能 准确 地 记录 “处 理 ” 时 间 ， 尽 


可 能 避免 “ 非 处 理 时 间 ” 的 影响 。 如 果 在 开始 前 必须 进行 初始 化 或 其 他 准备 工作 ， 请 
在 它们 完成 之 后 开始 计时 ， 如 果 需 要 收尾 工作 ， 请 在 计时 停止 之 后 进行 这 些 工作 。 


*。 “进行 “足够 多 ”的 处 理 。 通 常 ， 测 试 需要 的 时 间 是 相当 短暂 的 ， 而 计算 机 时 钟 的 单位 
精度 不 够 ， 无 法 给 出 有 意义 的 数值 。 


jif 
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在 我 的 机 器 上 运行 这 个 Perl BF, ARE: 


Alternation takes 0.000 seconds. 

Character class takes 0.000 seconds. 
我 们 只 能 知道 ， 这 上段 程序 所 需 的 时 间 比 计算 机 能 够 测量 的 最 短 时 间 还 要 短 。 所 以 ， 如 
果 程 序 运行 的 时 间 太 短 ， 就 运行 两 次 、 十 次 ， 甚 至 一 千 万 次 ， 来 保证 “足够 多 ”的 工 
作 。 这 里 的 “足够 多 ”取决 于 系统 时 钟 的 精度 ， 大 多 数 系统 能 够 精确 到 1/100s， 这 样 ， 
即使 程序 只 需要 0.5s， 也 能 取得 有 意义 的 结果 。 


。 ”进行 “准确 和 的” 处理。 进行 1 000 万 次 快速 操作 需要 在 负责 计时 的 代码 块 中 升级 1 000 
万 次 计数 器 。 如 果 可 能 ， 最 好 的 办 法 是 增加 真正 的 处 理 部 分 的 比例 ， 而 不 增加 额外 的 
开销 。 在 Perl 的 例子 中 , 正则 表达 式 应 用 的 文本 相当 短 : 如 果 应 用 到 长 得 多 的 字符 串 ， 
在 每 次 循环 中 所 作 的 “真正 的 ”处 理 也 会 多 一 些 。 


考虑 到 这 些 因素 ， 我 们 可 以 得 出 下 面 的 程序 : 


use Time::HiRes ‘time'; # 这 样 cime() 的 返回 值 更 加 精确 
$TimesToDo = 1000; # 设 定 重复 次 数 
$TestString = "abababdedfg" x 1000; # 生成 长 字符 事 


$Count = $TimesToDo; 
$StartTime = time(); 
while ($Count-- > 0) { 
$TestString =~ m/*(albicidlelflg)+$/; 
} 
SEndTime = time(); 
printf("Alternation takes %.3£ seconds.\n", $EndTime - $StartTime); 


$Count = $TimesToDo; 

$StartTime = time(); 

while ($Count-- > 0) { 

$TestString =~ m/*[a-g]+$/; 

} 

$EndTime = time(); 

printf("Character class takes %.3f seconds.\n", $EndTime - $StartTime); 
WER, sTeststring 和 $count 的 初始 化 在 计时 开始 之 前 (STeststring 使 用 了 Perl 提供 
的 x 操作 符 进 行 初始 化 ， 它 表示 将 左边 的 字符 串 重 复 右 边 的 次 数 ) 。 在 我 的 机 器 上 ， 使 用 
Perl5.8 运行 的 结果 是 : 

Alternation takes 7.276 seconds. 

Character class takes 0.333 seconds. 
所 以 ， 对 这 个 例子 来 说 ， 多 选 结构 要 比 字 符 组 快 22 倍 左右 。 此 测试 应 该 执行 多 次 ， 选 取 最 
短 的 时 间 ， 以 减少 后 台 系 统 活动 的 影响 。 
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理解 测量 对 象 


Know khat You ’ re Measuring 


我 们 把 初始 化 程序 更 改 为 下 面 这 样 ， 会 得 到 更 有 意思 的 结果 : 


$TimesToDo = 1000000; 
STestString = "abababdedfg"; 


现在 , MEFFRE ERK BERD 1/1000, 而 测试 需要 进行 1000 次 。 每 个 正则 表达 式 测 
试 和 匹配 的 字符 总 数 并 没有 变化 ， 因 此 从 理论 上 讲 , “工作 量 ”应 该 没有 变化 。 不 过 ， 结 果 
却 大 不 相同 : 

Alternation takes 18.167 seconds. 

Character class takes 5.231 seconds. 


两 个 时 间 都 比 之 前 的 要 长 。 原 因 是 新 增 的 “ 非 处 理 ”开销 一 一 对 scount 的 检测 和 更 新 ， 以 
及 建立 正则 引擎 的 时 间 ， 现 在 的 次 数 是 以 前 的 1 000 倍 。 


对 于 字符 组 测试 来 说 ， 新 增 移 开销 花费 了 大 约 Ss 的 时 间 ， 而 多 选 结构 则 增加 了 将 近 10 秒 。 
为 什么 多 选 结构 测试 的 时 间 变 化 如 此 之 大 ?主要 是 因为 捕获 型 括号 (在 每 次 测试 之 前 和 之 
后 ， 它 们 都 需要 额外 处 理 ， 这 样 的 操作 要 多 1 000 倍 )。 


无 论 如 何 ， 进 行 这 点 修改 的 要 点 在 于 说 明 ， 真 正 处 理 部 分 和 非 真正 处 理 部 分 在 计时 中 所 占 
的 比重 会 强烈 地 影响 到 测试 结果 。 


PHP 测试 


Benchmarking with PHP 
下 面 是 PHP 的 测试 ， 使 用 preg 51%: 


S$TimesToDo = 1000; 


/* 准备 测试 字符 事 */ 

$TestString = ""; 

for ($i = 0; $i < 1000; $i++) 
$TestString .= "abababdedfg"; 


/* 开始 第 一 轮 测 试 */ 

$start = gettimeofday(); 

for ($i = 0; $i < $TimesToDo; $i++) 
preg_match('/*(albiclelflg)+$/', $TestString); 

final = gettimeofday(); 

$sec = ($final['’sec'] + $final['usec']/1000000) - 

($start['sec'] + $start{'usec']/1000000); 
printf("Alternation takes %.3f seconds\n", $sec); 


/* 开始 第 二 轮 测试 */ 

$start = gettimeofday(); 

for (Si = 0; $i < $TimesToDo; $i++) 
preg_match('/*[a-g])+$/', $TestString) ; 

$final = gettimeofday(); 

$sec = ($final[{'sec'] + $finalf['usec']/1000000) - 

($start['sec'] + $start['usec']/1000000) ; 
printf ("Character class takes %.3f seconds\n", $sec); 
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在 我 的 机 器 上 ， 结 果 是 : 


Alternation takes 27.404 seconds 
Character class takes 0.288 seconds 


如 果 在 测试 中 过 到 PHP 错误 “not being safe to rely on the system's timezone settings”, 请 添加 
下 面 的 代码 : 


if (phpversion() >= 5) 
date_default_timezone_set ("GMT"); 


Java 测试 


Benchmarking with java 


因为 某 些 原因 ， 用 Java 测试 很 有 讲究 。 首 先 看 个 考虑 不 够 周到 的 例子 ， 然 后 请 思考 它 为 什 
么 考虑 不 周到 ， 应 该 如 何 改进 : 


import java.util.regex.*; 

public class JavaBenchmark { 

public static void main(String [] args) 

{ 
Matcher regexl 
Matcher regex2 
long timesToDo 


Pattern.compile("*(aibicid{elflg)+$") .matcher(""); 
Pattern.compile("*[a-g]+$").matcher(""); 
1000; 


rou ow 


StringBuffer temp = new StringBuffer (); 

for (int i = 1000; i > 0; i--) 
temp.append("abababdedfg") ; 

String testString = temp.toString(); 


// 第 一 轮 测试 计时 ... 
long count = timesToDo; 
long startTime = System.currentTimeMillis(); 
while (~-count > 0) 
regexl.reset (testString) .find(); 


double seconds = (System.currentTimeMillis() - startTime) /1000.0; 
System.out.println("Alternation takes " + seconds + " seconds"); 
// 第 二 轮 测试 计时 ... 


count = timesToDo; 
startTime = System.currentTimeMillis(); 


while (--count > 0) 
regex2.reset (testString) .find(); 
seconds = (System.currentTimeMillis() - startTime) /1000.0; 


System.out.println("Character class takes " + seconds + " seconds"); 
} 
} 


你 注意 到 在 这 个 程序 中 正则 表达 式 如 何 初始 化 部 分 编译 了 吗 ?我 们 需要 测试 的 是 匹配 的 速 
度 ， 而 不 是 编译 的 速度 。 
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速度 取决 于 所 使 用 的 虚拟 机 (VM), Sun 的 标准 JRE 有 两 种 虚拟 机 ，client VM 为 快速 启动 
而 优化 ，server VM 为 长 时 间 、 大 负荷 的 作业 而 优化 。 


在 我 的 机 器 上 ， 使 用 client VM 运行 测试 的 结果 如 下 ; 


Alternation takes 19.318 seconds 
Character class takes 1.685 seconds 


使 用 server VM 的 结果 如 下 : 


Alternation takes 12.106 seconds 
Character class takes 0.657 seconds 


这 样 看 来 测试 有 点 不 可 信 了 ， 之 所 以 说 它 不 够 周到 ， 原 因 在 于 计时 的 结果 在 很 大 程度 上 取 
决 于 自动 的 预 执行 编译 器 (automatic pre-execution compiler) 的 工作 ， 或 者 说 运行 时 编译 器 
(run-time compiler) 与 测试 代码 的 交互 情况 。 某 些 虚 拟 机 包含 JIT (Just-In-Time compiler), 
IT 会 根据 需要 ， 在 需要 执行 代码 之 前 才 进 行 编译 。 


Java 使 用 了 我 称 为 BLTN (Better-Late-Than-Never) 的 编译 器 ， 在 执行 期 间 计 数 ， 对 反复 使 
用 的 代码 根据 需要 进行 编译 和 优化 。BLTN 的 性 质 是 ， 它 只 对 认为 “热门 ”(hot， 即 大 量 使 
用 ) 的 代码 进行 干预 。 如 果 虚 拟 机 已 经 运行 了 一 段 时 间 ， 例 如 在 服务 器 环境 中 , 它 已 经 “ 预 
热 ” 完 毕 ， 而 我 们 的 简单 例子 确保 了 一 台 “ 凉 ”的 服务 器 (BLTN 没有 进行 任何 优化 )。 


可 以 把 测试 部 分 放 入 一 个 循环 ， 来 观察 “ 预 热 ” 现 象 ， 
// 第 一 轮 测 试 计时 ... 


for (int i = 4; i > 0; i--) 
{ 

long count = timesToDo; 

long startTime = System.currentTimeMillis(); 

while (--count > 0) 

regexl.reset (testString).find(); 

double seconds = (System.currentTimeMillis() - startTime)/1000.0; 

System.out.printin("Alternation takes " + seconds + " seconds"); 
} 


如 果 新 增 的 循环 运行 足够 长 (例如 ，10s)，BLTN 就 会 优化 热门 代码 ， 最 后 一 次 输出 的 时 间 
就 代表 了 已 预 热 系统 的 情况 。 再 次 使 用 server VM， 这 些 时 间 确 实 比 之 前 有 了 8% 和 25 允 的 
提高 。 


Alternation takes 11.151 seconds 
Character class takes 0.483 seconds 


另 一 个 问题 在 于 , 负责 调度 GC 线程 的 工作 是 不 确定 的 。 所 以 , 进行 足够 长 时 间 的 测试 能 够 
降低 这 些 不 确定 因素 的 影响 。 
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VB.NET 测试 


Benchmarking with VB.NET 


下 面 是 VB.NET 的 测试 程序 : 


Option Explicit On 
Option Strict On 


Imports System.Text.RegularExpressions 


Module Benchmark 
Sub Main{() 
Dim Regexl as Regex = New Regex("*(albicidle!£ig)+$") 
Dim Regex2 as Regex = New Regex("*[a-g]+$") 
Dim TimesToDo as Integer 1000 “ 
Dim TestString as String rd 
Dim I as Integer 
For I = 1 to 1000 
TestString = TestString & "abababdedfg" 
Next 


Dim StartTime as Double = Timer () 
For I = 1 to TimesToDo 
Regex1.Match(TestString) 
Next 
Dim Seconds as Double = Math.Round(Timer() - StartTime, 3) 
Console.WriteLine("Alternation takes " & Seconds & " seconds") 


StartTime = Timer () 
For I = 1 to TimesToDo 
Regex2 .Match(TestString) 


Next 

Seconds = Math.Round(Timer() - StartTime, 3) 

: Console.WriteLine ("Character class takes " & Seconds & " seconds") 
End Sub 
End Module 


在 我 的 机 器 上 ， 结 果 是 : 


Alternation takes 13.311 seconds 
Character class takes 1.680 seconds 


在 .NET Framework 中 使 用 RegexOptions.Compiled 作为 正则 表达 式 构 造 国 数 的 第 2 个 参 
数 ， 能 够 把 正则 表达 式 编译 为 效率 更 高 的 形式 (7410), HARA: 


Alternation takes 5.499 seconds 
Character class takes 1.157 seconds 


使 用 Compiled 功能 之 后 , 两 个 测试 的 速度 都 有 提高 , 但 是 多 选 结构 的 相对 上 升幅 度 更 为 明 
显 (几乎 是 之 前 的 3 倍 ， 而 字符 组 的 程序 只 提高 到 之 前 的 1.5 倍 )， 所 以 多 选 结构 从 中 获 益 
更 大 。 
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Ruby 测试 


Benchmarking with Ruby 


下 面 是 Ruby 的 测试 代码 ， 


TimesToDo=1000 
testString="" 
for i in 1..1000 
testString += "abababdedfg”" 
end 
Regexl = Regexp: :new("*(albicidle|lflg)+$"); 
Regex2 = Regexp: :new("*[a-g]+$"); 
startTime = Time.new.to_f 
for i in 1..TimesToDo 
Regexl.match(testString) 
end 
print "Alternation takes %.3f seconds\n" % (Time.new.to_f - startTime); 
startTime = Time.new.to_f 
for i in 1..TimesToDo 
Regex2 .match(testString) 
end 
print “Character class takes %.3f seconds\n" % (Time.new.to_f - startTime); 


在 我 的 机 器 上 ， 结 果 如 下 : 


Alternation takes 16.311 seconds 
Character class takes 3.479 seconds 


Python 测试 


Benchmarking with Python 


下 面 是 Python 的 测试 代码 : 


import re 
import time 
import fpformat , 
Regexl = re.compile{"^(alblcldlelflg)+$") 
Regex2 = re.compile("*{a-g]+$") 
TimesToDo = 1250; 
TestString = "" 
for i in range(800): 
TestString += "abababdedfg” 
StartTime = time.time() 
for i in range(TimesToDo) : 
Regexl .search (Test String) 
Seconds = time.time() - StartTime 
print "Alternation takes " + fpformat.fix(Seconds,3) + " seconds" 
StartTime = time.time() 
for i in range(TimesToDo): 
Regex2.search(TestString) 
Seconds = time.time() - StartTime 
print “Character class takes " + fpformat.fix(Seconds,3) + " seconds” 
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因为 Python 的 正则 引擎 设 定 的 限制 ， 我 们 必须 减少 字符 串 的 长 度 ， 因 为 原来 长 度 的 字符 审 
会 导致 内 部 错误 (“maximum recursion limit exceeded”)。 这 种 规定 有 点 像 减 压 阀 ， 它 有 助 于 
终止 无 休止 匹配 。 

` 


作为 弥补 ， 我 相应 增加 了 而 试 的 次 数 。 在 我 的 机 器 上 ， 而 试 结果 为 : 


Alternation takes 10.357 seconds 
Character class takes 0.769 seconds 


Tel 测试 


Benchmarking with Tel 


下 面 是 Tel 的 测试 代码 : 


set TimesToDo 1000 

set TestString "" 

for {set i 1000} ($i > 0} {incr i -1} { 
append TestString "“abababdedfg" 

} 


set Count $TimesToDo 
set StartTime [clock clicks -milliseconds] 
for {} {$Count > 0} {incr Count -1} { 
regexp {*(albic(dle{f\aq)+$} $TestString 
} 
set EndTime [clock clicks -milliseconds} 
set Seconds [expr (S$EndTime - $StartTime)/1000.0) 
puts [format “Alternation takes %.3f seconds" $Seconds] 


set Count $TimesToDo 
set StartTime [clock clicks -milliseconds] 
for {} {$Count > 0} {incr Count -1} { 
regexp {^[a-g]+$} $TestString 
} 
set EndTime [clock clicks -milliseconds} 
set Seconds [expr (S$EndTime - $StartTime)/1000.0) 
puts {format "Character class takes %.3f seconds" $Seconds] 


在 我 的 机 器 上 ， 结 果 如 下 : 


Alternation takes 0.362 seconds 
Character class takes 0.352 seconds 


神奇 的 是 ， 两 者 速度 相当 。 还 记得 吗 ， 我 们 在 第 145 页 说 过 ，Tcl 使 用 的 是 NFA/DFA 混合 
引擎 ， 对 DFA 引擎 来 说 ， 这 两 个 表达 式 是 没有 区 别 的 。 本 章 所 举 的 大 部 分 例子 并 不 适用 于 
Teclj， 详 细 信 息 请 参考 第 243 页 。 


iff 
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常见 优化 措施 


Common Optimizations 


聪明 的 正则 表达 式 实现 (implementation) 有 许多 办 法 来 优化 ， 提 高 取得 结果 的 速度 。 优 化 
通常 有 两 种 办 法 : 


° ”加速 某 些 操 作 。 某 些 类 型 的 匹配 ， 例 如 “sa+,， 极 为 常见 ， 引 擎 可 能 对 此 有 特殊 的 处 理 
方案 ， 执 行 速度 比 通用 的 处 理 机 制 要 快 。 


© ”避免 元 余 操 作 。 如 果 引 擎 认为 ， 对 于 产生 正确 结果 来 说 ， 某 些 特殊 的 操作 是 不 必要 的 ， 
或 者 某 些 操作 能 够 应 用 到 比 之 前 更 少 的 文本 ， 忽 略 这 些 操作 能 够 节省 时 间 。 例 如 ， 一 
个 以 ai ( 行 开 头 ) 开头 的 正则 表达 式 只 有 在 字符 串 的 开头 位 置 才能 匹配 ， 如 果 在 此 
处 无 法 匹配 ， 传 动 装置 不 会 徒劳 地 尝试 其 他 位 置 (进行 无 谓 的 尝试 )。 


在 下 面 的 十 几 页 中 ， 我 会 讲解 自己 见 过 的 许多 种 不 同 的 天 才 优 化 措施 。 没 有 任何 一 种 语言 
或 者 工具 提供 了 所 有 这 些 措施 ， 或 者 只 是 与 其 他 语言 和 工具 相同 的 优化 措施 ， 我 也 确信 ， 
还 有 许多 我 没 见 过 的 优化 措施 ， 但 看 完 本 章 的 读者 ， 应 该 能 够 合理 利用 自己 所 用 工具 提供 
的 任何 优化 措施 。 


有 得 必 有 失 


No Free Lunch 


通常 来 说 优化 能 节省 时 间 ， 但 并 非 永远 如 此 。 只 有 在 检测 优化 措施 是 否 可 行 所 需 的 时 间 少 
于 节省 下 来 的 匹配 时 间 的 情况 下 ， 优 化 才 是 有 益 的 。 事 实 上 ， 如 果 引 擎 检查 之 后 认为 不 可 
能 进行 优化 ， 结 果 总 是 会 更 慢 ， 因 为 最 开始 的 检查 需要 花费 时 间 。 所 以 ， 在 优化 所 需 的 时 
间 ， 节 省 的 时 间 ， 以 及 更 重要 的 因素 一 一 优化 的 可 能 性 之 间 ， 存 在 互相 制约 的 关系 。 


来 看 一 个 例子 。 表 达 式 \b\B, ( 某 个 位 置 既是 单词 分 隔 符 又 不 是 单词 分 隔 符 ) 是 不 可 能 匹配 
的 。 如 果 引 擎 发 现 提供 的 表达 式 包 含 \b\B 就 知道 整个 表达 式 都 无 法 匹配 ， 因 而 不 会 进行 
任何 匹配 操作 。 它 会 立刻 报告 匹配 失败 。 如 果 匹 配 的 文本 很 长 ， 节 省 的 时 间 就 非常 可 观 。 


不 过 ， 我 所 知 的 正则 引擎 都 没有 进行 这 样 的 优化 。 为 什么 ?首先 ， 很 难 判断 这 条 规则 是 否 
适用 于 某 个 特定 的 表达 式 。 某 个 包含 \b\BI 的 正则 表达 式 很 可 能 可 以 匹配 ， 所 以 引擎 必须 
做 一 些 额外 的 工作 来 预先 确认 。 当 然 ， 节 省 的 时 间 确 实 很 可 观 ， 所 以 如 果 预 计 到 e 经 
常 出 现 ， 这 样 做 还 是 值得 的 。 


if 
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ANE, AIDA (MERE) ( 注 4)， 虽 然 在 极 少数 情况 下 这 样 做 可 以 节省 大 量 的 时 
间 ， 但 其 他 情况 下 速度 降低 的 代价 比 这 高 得 多 。 


优化 各 有 不 同 


Everyone ` s Lunch is Different 


在 讲解 各 种 优化 措施 时 ， 请 务必 记 住 一 点 “优化 各 有 不 同 (everyone’s lunch is different)”, 
虽然 我 尽量 使 用 简单 清晰 的 名 字 来 命名 每 种 措施 ， 但 不 同 的 引擎 必然 可 能 以 不 同 的 方式 来 
优化 。 对 某 个 正则 表达 式 进行 细微 的 改动 ， 在 某 个 实现 方式 中 可 能 会 带 来 速度 的 大 幅 提 升 ， 
而 在 另 一 个 实现 方式 中 大 大 降低 速度 。 


正则 表达 式 的 应 用 原理 


The Mechanics of Regex Application 

我 们 必须 先 掌 担 正 则 表达 式 应 用 的 上 本 知识 ， 然 后 讲解 先进 系统 的 优化 原理 及 利用 方式 。 
之 前 已 经 了 解 了 回溯 的 细节 ， 在 本 节 我 们 要 进行 更 全 面 地 学 习 。 

正则 表达 式 应 用 到 目标 字符 串 的 过 程 大 致 分 为 下 面 几 步 : 

. 正则 表达 式 编译 检查 正则 表达 式 的 语法 正确 性 ， 如 果 正 确 ， 就 将 其 编译 为 内 部 形式 


(internal form) 。 
. 传动 开始 传动 装置 将 正则 引擎 “定位 ”到 目标 字符 串 的 起 始 位 置 。 


-元素 检测 引擎 开始 测试 正则 表达 式 和 文本 ， 依 次 测试 正则 表达 式 的 各 个 元 素 (comp- 
onent), ， 如 第 4 章 所 说 的 那样 。 我 们 已 经 详细 考察 了 NFA 的 回溯 ， 但 是 还 有 几 点 需要 补 
充 : 


。 FETCH, Bilan subject H's. "w, bi Gi ‘es BS, 会 依次 尝试 , 只 有 当 某 个 
元 素 匹 配 失败 时 才 会 停止 。 


。 ”量词 修饰 的 元 素 , 控制 权 在 量词 (检查 量词 是 否 应 该 继续 匹配 ) 和 被 限定 的 元 素 (而 
试 能 否 匹配 ) 之 间 轮 换 。 


。 ”控制 权 在 捕获 型 括号 内 外 进行 切换 会 带 来 一 些 开销 。 括号 内 的 表达 式 匹 配 的 文本 必 
须 保留 , 这 样 才能 通过 $1 来 引用 。 因 为 一 对 括号 可 能 属于 某 个 回溯 分 支 , 括号 的 状 
态 就 是 用 于 回溯 的 状态 的 一 部 分 ， 所 以 进入 和 退出 捕获 型 括号 时 需要 修改 状态 。 


一 一 


N 


t 


注 4: FRE, 我 曾 在 测试 中 使 用 '\b\Bi 来 保证 正则 表达 式 的 某 个 部 分 匹配 失败 。 例 如， 我 可 能 
把 \b\B1 插 入 “…(this Ithis other)…J 标 记 的 状态 中 ， 保 证 第 一 个 多 选 分 支 的 失败 。 
现在 ， 当 我 使 用 “必须 失败 ”的 元 素 时 , AEA (L, 你 可 以 在 第 333 页 找到 这 个 与 Perl 
相关 的 例子 。 
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~ 


. 寻找 匹配 结果 如 果 找 到 一 个 匹配 结果 ， 传 统 型 NFA 会 “锁定 ”在 当前 状态 ， 报 告 匹 配 
成 功 。 而 对 POSIX NFA 来 说 ， 如 果 这 个 匹配 是 迄今 为 止 最 长 的 ， 它 会 记 住 这 个 可 能 的 匹 
配 ， 然 后 从 可 用 的 保存 状态 继续 下 去 。 保 存 的 状态 都 测试 完毕 之 后 返回 最 长 的 匹配 。 


. 传动 装置 的 驱动 过 程 如 果 没 有 找到 匹配 ， 传动 装置 就 会 驱动 引擎 ,从 文本 中 的 下 一 个 字 
符 开始 新 “ 轮 的 尝试 〈 回 到 步骤 3) 。 


. 匹配 彻底 失败 如 果 从 目标 字符 串 的 每 一 个 宁 符 (包括 最 后 一 个 字符 之 后 的 位 置 ) 开始 的 
尝试 都 失败 了， 就 会 报告 匹配 彻底 失败 。 


下 面 几 节 讲解 高 级 的 实现 方式 如 何 减少 这 些 处 理 ， 以 及 如 何 应 用 这 些 技巧 。 


nr 


iow) 


应 用 之 前 的 优化 措施 


Pre-Application Optimizations 


优秀 的 正则 引擎 实 现 方式 能 够 在 止 则 表达 式 实 际 应 用 之 前 就 进行 优化 ， 它 有 时候 其 至 能 迅 
速 判断 出 ， 某 个 正则 表达 式 无 论 如 何 也 无 法 匹配 ， 所 以 根本 不 必 应 用 这 个 表达 式 。 


编译 缓存 


第 2 章 的 E-mail 处 理 程序 中 ， 用 于 处 理 header 各 行 的 主 循环 体 中 是 这 样 的 : 


while (=) { 
if ($line =~ m/4\e*§/ ) … 
if ($line =~ m/*Subject: (.*)/)-: 
if ($line =~ m/4Date: (.*)/). 
if ($line =~ m/*Reply-To: (\8+)/):: 
if ($line =~ m/4From: (\S+) \(({*()]*)\)/).:: 


} 


正则 表达 式 使 用 之 前 要 做 的 第 一 件 事情 是 进行 错误 检查 ， 如 果 没 有 问题 则 编译 为 内 部 形式 ，。 
编译 之 后 的 内 部 形式 能 用 来 检查 各 种 字符 串 ， 但 是 这 段 程序 的 情况 如 何 ? 显然 ， 每 次 循环 
都 要 重新 编译 所 有 正则 表达 式 ， 这 很 浪费 时 间 。 相 反 ， 在 第 一 次 编译 之 后 就 把 内 部 形式 保 
存 或 缓存 下 来 ， 在 此 后 的 循环 中 重复 使 用 它们 ， 显 然 会 提高 速度 (只 是 要 消耗 些 内 存 )。 


具体 做 法 取决 于 应 用 程序 提供 的 正则 表达 式 处 理 方式 。93 页 已 经 说 过 ， 有 3 种 处 理 方式 ; 
集成 式 、 程 序 式 和 面向 对 象 式 。 
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集成 式 处理 中 的 编译 缓存 


Perl 和 awk 使 用 的 就 是 集成 式 处 理 方法 ， 非 常 容易 进行 编译 缓存 。 从 内 部 来 说 ， 每 个 正则 
表达 式 都 关联 到 代码 的 某 一 部 分 ， 第 一 次 执行 时 在 编译 结果 与 代码 之 间 建 立 关联 ， 下 次 执 
行 时 只 需要 引用 即 可 。 这 样 最 节省 时 间 ， 代 价 就 是 需要 一 部 分 内 存 来 保存 缓存 的 表达 式 。 


DFA, Tel 与 手工 调 校正 则 表达 式 


本 章 中 介绍 的 大 部 分 优化 措施 并 不 适用 于 DFA。 第 242 页 介绍 的 篇 译 继 存 却 过 用 于 所 
有 的 引擎 ， 但 是 本 章 讨 论 的 所 有 手工 调 校 都 不 适用 于 DFA。 第 4 章 已 经 澄清 ， 远 辑 上 
相等 的 正则 表达 式 "thislthatj 和 Thtislat), 对 DFA 来 说 是 等 价 的 .之 所 以 要 写本 
章 ， 是 因为 它们 对 NFA 来 说 不 相等 。 


那么 使 用 DFA/NFA 混合 引擎 的 Tel 呢 ? Tel 的 正则 引擎 是 由 正则 表达 式 的 传奇 人 物 


Henry Spencer (788) 为 Tel 专门 开发 的 ， 它 成 功 地 融合 了 DFA 和 NFA 的 优点 。 在 
2000 年 4 月 的 Usenet posting 中 ，Henry 这 样 写 到 : 
总 的 来 说 ， 与 传统 的 正则 引 学 相 比 ，Tcl 的 引擎 对 正则 表达 式 的 具体 形式 的 敏感 
度 要 低 得 多 。 无 论 正则 表达 式 写 成 怎么 样 ， 该 快 的 就 快 ， 该 慢 的 就 慢 。 传 统 的 正 
则 表达 式 手工 优化 在 这 里 不 适用 。 


Henry 的 Tcl 正则 引 掌 是 一 大 进步 。 如 果 其 中 的 技术 流行 开 来 ， 本 章 的 许多 内 容 就 毫 无 
意义 了 。 





变量 插值 功能 (variable interpolation， 即 将 变量 的 值 作 为 正则 表达 式 的 一 部 分 ) 可 能 会 给 缓 
存 造 成 麻烦 。 例 如 对 m/^Subject:'\Q $Desiredsubject\E\s*$/ 来 说 ， 每 次 循环 中 正则 
表达 式 的 内 容 可 能 会 发 生 改 变 ， 因为 它 取决 于 插值 变量 ， 而 这 个 变量 的 值 可 能 会 变化 。 如 
果 每 次 都 会 不 同 ， 那 么 正则 表达 式 每 次 都 需要 编译 ， 完 全 不 能 重复 利用 。 


尽管 正则 表达 式 可 能 每 次 循环 都 会 变化 ， 但 这 并 不 是 说 任何 时 候 都 需要 重新 编译 。 折 中 的 
优化 措施 就 是 检查 插值 后 的 结果 (也 就 是 正则 表达 式 的 具体 值 )， 只 有 当 具 体 值 发 生变 化 时 
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才 重 新 编译 。 不 过 ， 如 果 变 化 的 几率 很 小 ， 大 多 数 时 候 就 只 需要 检查 (而 不 需要 编译 )， 优 
化 效果 很 明显 。 


程序 式 处 理 中 的 编译 缓存 


在 集成 式 处 理 中 ， 正 则 表达 式 的 使 用 与 其 在 程序 中 所 处 的 具体 位 置 相关 ， 所 以 再 次 执行 这 
段 代 码 时 ， 编 译 好 的 正则 表达 式 就 能 够 缓存 和 重复 使 用 。 但 是 ， 程 序 式 处 理 中 只 有 通用 的 
“应 用 此 表达 式 ” 的 函数 。 也 就 是 说 ， 编 译 形式 并 不 与 程序 的 具体 位 置 相 连 ， 下 次 调用 此 
函数 时 ， 正 则 表达 式 必 须 重新 编译 。 从 理论 上 来 说 就 是 如 此 ， 但 是 在 实际 应 用 中 ， 禁 止 尝 
试 缓存 的 效率 无 疑 很 低 。 相 反 ， 优 化 通常 是 把 最 近 使 用 的 正则 表达 式 模式 (regex pattern) 
保存 下 来 ， 关 联 到 最 终 的 编译 形式 。 


调用 “应 用 此 表达 式 ” 函 数 之 后 ， 作 为 参数 的 正则 表达 式 模 式 会 与 保存 的 正则 表达 式 相 比 
较 ， 如 果 存 在 于 缓存 中 ， 就 使 用 缓存 的 版 本 。 如 果 没 有 ， 就 直接 编译 这 个 正则 表达 式 ， 将 
其 存 人 缓存 (如 果 缓 存 有 容量 限制 ， 可 能 会 替换 一 个 旧 的 表达 式 )。 如 果 缓 存 用 完了 ， 就 必 
须 放 弃 (thrown out) 一 个 编译 形式 ， 通 常 是 最 久未 使 用 的 那个 。 


GNU Emacs 的 缓存 能 够 保存 最 多 20 个 正则 表达 式 ，Tcl 能 保存 30 个 。PHP 能 保存 四 千 多 
M, -NET Framework 在 默认 情况 下 能 保存 15 个 表达 式 , 不 过 数量 可 以 动态 设置 , 也 可 以 禁 
止 此 功能 (7432), 


缓存 的 大 小 很 重要 ， 因 为 如 果 缓 存 装 不 下 循环 中 用 到 的 所 有 正则 表达 式 ， 在 循环 重新 开始 
时 ， 最 开始 的 正则 表达 式 会 被 清除 出 缓存 ， 结 果 每 个 正则 表达 式 都 需要 重新 编译 。 


面向 对 象 式 处 理 中 的 编译 缓存 


在 面向 对 象 式 处 理 中 ， 正 则 表达 式 何 时 编译 完全 由 程序 员 决 定 。 正 则 表达 式 的 编译 是 用 户 
通过 New Regex, re.compile fi] Pattern. compile (分别 对 应 .NET. Python 和 java.util. 
regex) 之 类 的 构造 函数 来 进行 的 。 第 3 章 的 简单 示例 对 此 做 了 介绍 (从 第 95 页 开始 )， 编 
译 在 正则 表达 式 实际 应 用 之 前 完成 ， 但 是 它们 也 可 以 更 早 完成 (有 了 时候 可 以 在 循环 之 前 ， 
或 者 是 程序 的 初始 化 阶段 )， 然 后 可 以 随意 使 用 。 在 第 235, 237 和 238 页 的 性 能 测试 中 体 
现 了 这 一 点 。 


在 面向 对 象 式 处 理 中 , 程序 员 通 过 对 象 析 构 函数 抛弃 (thrown away) 编译 好 的 正则 表达 式 。 
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及 时 抛弃 不 需要 的 编译 形式 能 够 节省 内 存 。 


预 查 必须 字符 / 子 字符 串 优 化 


相 比 正 则 表达 式 的 完整 应 用 ， 在 字符 串 中 搜索 某 个 字符 《或 者 是 一 串 字符 ) 是 更 加 “ 轻 量 
级 ”的 操作 ， 所 以 某 些 系统 会 在 编译 阶段 做 些 额外 的 分 析 ， 判 断 是 否 存在 成 功 匹配 必须 的 
字符 或 者 字符 串 。 在 实际 应 用 正则 表达 式 之 前 ， 在 目标 字符 串 中 快速 扫描， 检查 所 需 的 字 
符 或 者 字符 串 一 一 如 果 不 存 在 ， 根 本 就 不 需要 进行 任何 尝试 。 


举例 来 说 , “subject :…(.*) ,的 “subject:*” 是 必须 出 现 的 。 程 序 可 以 检查 整个 字符 牛 ， 
或 者 使 用 Boyer-Moore 搜索 算法 (这 是 一 种 很 快 的 文件 检索 算法 ,字符 囊 越 长 ,效率 越 高 )。 
没有 采用 Boyer-Moore 算法 的 程序 进行 逐个 字符 检查 也 可 以 提高 效率 。 选 择 目标 字符 串 中 
不 太 可 能 出 现 的 字符 (例如 “subject :… 中 的 “t” 之 后 的 “:") 能 够 进 -- 步 提高 效率 。 


正则 引擎 必须 能 识别 出 ,^subject :…(.*) ,的 一 部 分 是 固定 的 文本 字符 串 , 对 任意 匹配 来 说 ， 
识别 出 thisithatlother, 中 “th” 是 必须 的 ,需要 更 多 的 工夫 ， 而 且 大 多 数 正则 引 营 不 
会 这 样 做 。 此 问题 的 答案 并 不 是 黑白 分 明 的 ， 某 个 实现 方式 或 许 不 能 识别 出 “th” 是 必须 
的 ， 但 能 够 识别 出 “h” 和 “t” 都 是 必须 的 ， 所 以 至 少 可 以 检查 一 个 字符 。 


不 同 的 应 用 程序 能 够 识别 出 的 必须 字符 和 字符 串 有 很 大 差别 。 许 多 系统 会 受到 多 选 结构 的 
干扰 。 在 这 种 系统 中 ， 使 用 chtisiat) 的 表现 好 于 “hislchatj。 同 样 ， 请 参考 第 247 页 
的 “开头 字符 /字符 组 / 子 串 识 别 优化 "。 


长 度 判断 优化 


“subject:*{.*), 能 匹配 文本 的 长 度 是 不 固定 的 ， 但 是 至 少 必 须 包 含 9 个 字符 。 所 以 ， 如 
果 目 标 字 符 串 的 长 度 小 于 9 则 根本 不 必 尝 试 。 当 然 ， 需 要 匹配 的 字符 更 长 优化 的 效果 才 更 
明显 ， 例 如 ':\a{79}:, (至 少 需要 81 个 字符 )。 


请 参见 第 247 页 的 “长 度 识 别传 动 优 化 ”。 


Hi 
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通过 传动 装置 进行 优化 


Optimizations with the Transmission 


即使 正则 引擎 无 法 预知 某 个 字符 串 能 否 匹 配 ， 也 能 够 减少 传动 装置 真正 应 用 正则 表达 式 的 
位 置 。 


字符 串 起 始 / 行 锚 点 优化 


这 种 优化 措施 能 够 判断 , 任何 以 “开头 的 正则 表达 式 只 能 在 …, 能 够 匹配 的 情况 下 才 可 能 匹 
配 ， 所 以 只 需要 在 这 些 位 置 应 用 即 可 。 


在 “ 预 查 必 须 字 符 / 子 字符 串 优 化 ”中 提 到 ， 正 则 引擎 必须 判断 对 某 个 正则 表达 式 来 说 有 哪 
些 可 行 的 优化 ， 在 这 里 同样 有 效 。 任 何 使 用 此 优化 的 实现 方式 都 必须 能 够 识别 ， 如 果 
“^(thislthat)) 匹 配 成 功 , "必须 能 够 匹配 , 但 许多 实现 方式 不 能 识别 “chis1^*tchati。 此 
BT, 用 “(chislchat)) 或 者 “(?:this1that)) 能 够 提高 匹配 的 速度 。 


同样 的 优化 措施 还 对 a 有效 ， 如 果 匹 配 多 次 进行 ， 对 "G1 也 有 效 。 


隐 式 锚 点 优化 


能 使 用 此 种 优化 的 引擎 知道 , 如 果 正 则 表达 式 以 “.*, 或 .+ 开头 , 而且 没 有 全 局 性 多 选 结构 
(global alternation), 则 可 以 认为 此 正则 表达 式 的 开头 有 一 个 看 不 见 的 "“,。 这 样 就 能 使 用 上 
一 节 的 “字符 串 起 始 / 行 错 点 优化 "， 节 省 大 量 的 时 间 。 


更 聪明 的 系统 能 够 认识 到 , 即使 开头 的 .*; 或 .+ 在 括号 内 , 也 可 以 进行 同样 的 优化 , 但 是 
在 过 到 捕获 括号 时 必须 小 心 。 例 如 ,“( .+)x\1; 期 望 匹配 的 是 字符 串 在 ‘“X” 两 侧 是 相同 的 ， 
添加 “; 就 不 能 匹配 “1234x2345”( 注 5)。 


字符 串 结束 / 行 锚 点 优化 


这 种 优化 遇 到 末尾 为 '$ 或 者 其 他 结束 锚 点 (7129) 的 正则 表达 式 时 , 能 够 从 字符 串 未 尾 倒 
数 老 干 字符 的 位 置 开 始 尝试 匹配 。 例如 正则 表达 式 resex(es) ?$) 匹 配 只 可 能 从 字符 串 未 尾 
倒数 的 第 8 个 字符 (TE 6) 开始 ， 所 以 传动 装置 能 够 跳 到 那个 位 置 ， 略 过 目标 字符 串 中 许多 
可 能 的 字符 。 


注 5: 有 趣 的 是 ，Perl 的 这 个 “优化 过 度 ” 的 bug， 在 10 年 里 都 无 人 关注 ， 最 后 由 Perl 开发 人 员 
Jeff Pinyan 在 2002 年 早期 发 现 (并 修正 ) 。 显 然 ，(.+)XN1I 之 类 的 表达 式 并 不 常见 、 否 则 
这 个 bug 就 不 会 这 么 迟 才 被 发 现 了 。 

注 6: 在 这 里 ,我 说 8 个 字符 ， 而 不 是 7 个 ,因为 在 许多 流派 中 ,5 能 够 匹配 字 桂 事 末 尾 的 换行 
竺 之 前 的 位 置 (7129), 
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开头 字符 /字符 组 / 子 串 识别 优化 


这 是 “ 预 查 必须 字符 / 子 字 符 串 优化 ”的 更 一 般 的 版 本 ， 这 种 优化 使 用 同样 的 信息 (正则 表 
达 式 的 任何 匹配 必须 以 特定 字符 或 文字 子 字符 串 开 头 )， 容 许 传动 装置 进行 快速 子 字符 串 检 
E, 所 以 它 能 够 在 字符 串 中 合适 的 位 置 应 用 正则 表达 式 。 例 如 ，chislthat lother 只 能 从 
‘(ot 的 位 置 开 始 匹 配 ， 所 以 传动 装置 预先 检查 字符 串 中 的 每 个 字符 ， 只 在 可 能 匹配 的 位 
置 进行 应 用 ， 这 样 能 节省 大 量 的 时 间 。 能 够 预先 检查 的 子 串 越 长 ,“ 错 误 的 开始 位 置 ”就 越 
少 。 


内 嵌 文 字 字 符 串 检查 优化 


这 有 点 类 似 初 始 字 符 串 识别 优化 ， 不 过 更 加 高 级 ， 它 针对 的 是 在 匹配 中 固定 位 置 出 现 的 文 

FFT, MRIEWRIAKE '\b (perl | java) \.regex\.info\b, 那么 任何 匹配 中 都 要 有 
“ .regex.info" ， 所 以 智能 的 传动 装置 能 够 使 用 高 速 的 Boyer-Moore 字符 捉 检 索 算法 寻找 
.regex.info ， 然 后 往 前 数 4 个 字符 ， 开 始 实际 应 用 正则 表达 式 。 


一 般 来 说 ， 这 种 优化 只 有 在 内 嵌 文 字 字符 串 与 表达 式 起 始 位 置 的 距离 固定 时 才能 进行 。 
此 它 不 能 用 于 \b(vbljava)\.regex\.info\bl， 这 个 表达 式 虽然 包含 文字 字符 串 , 但 此 字 
符 串 与 匹配 文本 起 始 位 置 的 距离 是 不 确定 的 (2 个 或 4 个 字符 )。 这 种 优化 同样 也 不 能 用 于 
‘\b(\w+) \.regex\.info\b), 因为 '(\w+), 可 能 匹配 任意 数目 的 字符 。 


长 度 识 别传 动 优化 


此 优化 与 245 页 的 长 度 识别 优化 直接 相关 ， 如 果 当 前 位 置 距离 字符 捉 末 尾 的 长 度 小 于 成 功 
匹配 所 需 最 小 长 度 ， 传 动 装置 会 停止 匹配 尝试 。 


优化 正则 表达 式 本 身 


Optimizations of the Regex Itself 


文字 字符 串 连 接 优 化 


也 许 最 基本 的 优化 就 是 ， 引 擎 可 以 把 'abc; 当 作 “一 个 元 素 " ， 而 不 是 三 个 元 素 “al， 然 后 
EÈ b, 然后 是 <”。 如 果 能 够 这 样 ， 整 个 部 分 就 可 以 作为 匹配 迁 代 的 一 个 单元 ， 而 不 需要 进 
行 三 次 迭代 。 

化 简 量 词 优化 

约束 普通 元 素 一 一 例如 文字 字符 或 者 字符 组 一 一 的 加 号 、 星 号 之 类 的 量词 ， 通 常 要 经 过 优 
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化 ,避免 普通 NFA 引擎 的 大 部 分 逐步 处 理 开销 (step-by-step overhead)。 正 则 引擎 内 的 主 循 
环 必须 通用 (general) ， 能 够 处 理 引 擎 支持 的 所 有 结构 。 而 在 程序 设计 中 ,“ 通 用 ”意味 着 
“速度 慢 "， 所 以 此 种 优化 把 .* 之 类 的 简单 量词 作为 一 个 “整体 ”， 正 则 引擎 便 不 必 按 照 
通用 的 办 法 处 理 , 而 使 用 高 速 的 , 专门 化 的 处 理 程序 。 这样, 通用 引擎 就 绕 过 (short-circuit) 
了 这 些 结构 。 


举例 来 说 ，.*, 和 '(?:.)* 在 逻辑 上 是 相等 的 ， 但 是 在 进行 此 优化 的 系统 中 ，.*, 实 际 上 更 
快 。 举 一 些 例 子 : 在 java.util.regex 中 , 性 能 提升 在 10% 左 右 , 但 是 在 Ruby 和 .NET F, 
KRÈ 2.5 倍 。 在 Python 中 ， 大 概 是 50 倍 。 在 PHP/PCRE H, KÈ 150 倍 。 因 为 Perl 
实现 了 下 一 节 介 绍 的 优化 措施 , '.*, (2: .) “的 速度 是 一 样 的 (请 参考 下 一 页 的 补充 内 容 ， 
了 解 如 何 解释 这 些 数据 ) 。 


消除 无 必要 括号 


- 如 果菜 种 实现 方式 认为 O: .)*1 与 .*! 是 完全 等 价 的 ， 那 么 它 就 会 用 后 者 替换 前 者 。 


消除 不 需要 的 字符 组 


只 包含 单个 字符 的 字符 组 有 点 儿 多 余 ， 因 为 它 要 按照 字符 组 来 处 理 ， 而 这 么 做 完全 没有 必 
要 。 所 以 ， 聪 明 的 实现 方式 会 在 内 部 把 L. 转换 为 仆 .,。 


忽略 优先 量词 之 后 的 字符 优化 


忽略 优先 量词 , Galen's (.*?)" 中 的“*?”, 在 处 理 时 ,引擎 通常 必须 在 量词 作用 的 对 象 (点 
F) 和 “之 后 的 字符 之 间 切 换 。 因 为 种 种 原因 ， 忽 略 优先 量词 通常 比 匹配 优先 量词 要 慢 ， 
尤其 是 对 上 文中 “化 简 量 词 优 化 ”的 匹配 优先 限定 结构 来 说 ， 更 是 如 此 。 另 一 个 原因 是 ， 
如 果 忽 略 优先 量词 在 捕获 型 括号 之 内 ， 控 制 权 就 必须 在 括号 内 外 切换 ， 这 样 会 带 来 额外 的 
开销 。 


所 以 这 种 优化 的 原理 是 ， 如 果 文 字 字 符 跟 在 忽略 优先 量词 之 后 ， 只 要 引擎 没有 触及 那个 文 
字 字符 ， 忽 略 优先 量词 可 以 作为 普通 的 匹配 优先 量词 来 处 理 。 所 以 ， 包 含 此 优化 的 实现 方 
式 在 这 种 情况 下 会 切换 到 特殊 的 忽略 优先 量词 ， 迅 速 检 测 目标 文本 中 的 文字 字符 ， 在 遇 到 
此 文字 字符 之 前 ， 跳 过 常规 的 “忽略 ”状态 。 


此 优化 还 有 各 种 其 他 形式 ,例如 预 查 一 组 字符 ,而 不 是 特殊 的 一 个 字符 (例如 ， 检查“['"] 
(.*2) 0°) PRC, 这 有 点 类 似 前 面 介绍 的 开头 字符 识别 优化 )。 
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理解 本 章 中 的 性 能 测试 


本 章 的 大 多 数 性 能 测试 给 出 的 是 某 种 语言 的 相对 结果 。 例 如 ， 第 248 页 我 提 到 一 种 优 
化 过 结构 能 比 另 一 种 未 优化 的 结构 快 10% ,至 少 在 Sun 的 Java regex package 中 是 这 样 。 
在 .NET 中 ， 两 者 之 间 的 差异 是 2.5 倍 ， 在 PCRE 中 ， 是 150 倍 。 在 Perl 中 ， 两 者 是 一 
样 的 (也 就 是 ， 它 们 的 速度 是 相同 的 ) 。 

那么 ， 你 能 够 从 中 推导 出 不 同 语言 之 间 的 相对 速度 吗 ? 显然 不 能 。PCRE 中 150 倍 的 
性 能 提升 意味 着 优化 执行 的 效果 特别 好 ， 相 对 其 他 语言 ， 或 者 意味 着 未 优化 的 版 本 速 
度 很 慢 。 在 大 部 分 中 ， 我 几乎 没有 提 到 语言 之 间 的 计时 间 题 ， 因 为 它们 是 语言 开发 人 
员 争论 的 话题 。 

不 过 还 是 有 一 点 值得 一 看 ,就 是 Java 的 10% 和 PCRE 的 1$0 倍 背后 的 细节 。 看 起 来 PCRE 
中 未 优化 的 '(?: .)*i 的 速度 是 Java 的 1/11, 不 过 优化 的 !.* 要 快 13 倍 。Java 和 Ruby 
的 优化 版 本 速度 相同 ， 但 是 Ruby 的 未 优化 版 本 比 Java 的 要 慢 40%, Ruby 的 未 优化 版 
本 只 比 Python 的 未 优化 版 本 慢 10% ,但 是 Python 的 优化 版 本 比 Ruby 的 优化 版 本 快 20 
倍 。 


所 有 这 些 都 比 Perl 的 要 慢 。Perl 的 优化 和 未 优化 版 本 都 比 Python RRA MAH 10%, 
请 注意 ， 每 种 语言 都 有 自己 的 强项 ， 这 些 数字 只 是 针对 某 个 具体 的 测试 情况 而 言 的 。 


















“过 度 ” 回 漳 检 测 


第 226 页 的 “实测 ”揭示 的 问题 是 ，( .+) *, 之 类 的 量词 结合 结构 ,能 够 制造 指数 级 的 回溯 。 
避免 这 种 情况 的 简单 办 法 就 是 限定 回溯 的 次 数 ， 在 “ 超 限 ”时 停止 匹配 。 在 某 些 实际 情况 
中 这 非常 有 用 ， 但 是 它 也 为 正则 表达 式 能 够 应 用 的 文本 人 为 设置 了 限制 。 


例如 , 如 果 上 限 是 10 000 次 回溯 ,'.*?, 就 不 能 匹配 长 于 10 000 的 字符 , 因为 每 个 匹配 的 字 
符 都 对 应 一 次 回溯 。 这 种 情况 并 不 罕见 ， 尤 其 在 处 理 Web 页 时 更 是 如 此 ， 所 以 这 种 限制 非 
HM. 


Ii 
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出 于 不 同 的 原因 ， 某 些 实现 方式 限制 了 回溯 堆栈 的 大 小 (也 就 是 同时 能 够 保存 的 状态 的 上 
限 )。 例 如 ，Python 的 上 限 是 10000。 就 像 回 计 上 限 一 样 ， 这 也 会 限制 正则 表达 式 所 能 处 理 
的 文本 的 长 度 。 


因为 存在 这 个 问题 ， 本 书 中 的 某 些 性 能 测试 构建 起 来 非常 困难 。 为 了 获得 最 准确 的 结果 ， 
性 能 测试 中 计时 部 分 应 该 尽 可 能 多 地 完成 正则 表达 式 的 匹配 ， 所 以 我 创建 了 极 长 的 字符 串 ， 
比较 例如 i (Jo (Js 和 (jx 的 执行 时 间 。 为 了 保证 结果 有 意义 ， 
我 必须 限制 字符 串 的 长 度 ， 以 避免 回调 计数 或 者 堆栈 大 小 的 限制 。 你 可 以 在 239 页 看 到 这 
MAT. 


避免 指数 级 (也 就 是 超 线性 super-linear) 匹配 


避免 无 休止 的 指数 级 匹配 的 更 好 办 法 是 ， 在 匹配 尝试 进 入 超 线 性 状态 时 进行 检测 。 这 样 就 
能 做 些 额 外 的 工作 ， 来 记录 每 个 量词 对 应 的 子 表 达 式 尝试 匹配 的 位 置 ， 绕 过 重复 尝试 。 


实际 上 ， 超 线性 匹配 发 生 时 是 很 容易 检测 出 来 的 。 单 个 量词 “和 迭代”( 循 环 ) 的 次 数 不 应 该 
比 目 标 字符 串 的 字符 数量 更 多 。 否 则 肯定 发 生 了 指数 级 匹配 。 如 果 根 据 这 个 线索 发 现 匹 配 
已 经 无 法 终止 ， 检 测 和 消除 元 余 的 匹配 是 更 复杂 的 问题 ， 但 是 因为 多 选 分 支 匹配 次 数 太 多 ， 
这 么 做 或 许 值得 。 


检测 超 线性 匹配 并 迅速 报告 匹配 失败 的 副作用 (side effect) 之 一 就 是 ， 真 正 缺 乏 效率 的 正 
则 表达 式 并 不 会 体现 出 效率 的 低下 。 即 使 使 用 这 种 优化 ， 避 免 了 指数 级 匹配 ， 所 花 的 时 间 
也 远 远 高 于 真正 需要 的 时 间 ， 但 是 不 会 慢 到 很 容易 被 用 户 发 现 〈 不 像 是 等 到 太阳 落 山 一 样 
漫长 ， 而 可 能 是 多 消耗 1/100s， 对 我 们 来 说 这 很 快 ， 但 对 计算 机 来 说 很 济 长 )。 


当然 、 总 的 来 看 可 能 还 是 利 大 于 兽 。 许 多 人 不 关心 正则 表达 式 的 效率 一 一 它们 对 正则 表达 
式 怀 着 一 种 臣 惧 心理 ， 只 希望 能 完成 任务 ， 而 不 关心 如 何 完成 。( 你 可 能 设 见 过 这 种 情况 ， 
但 是 我 希望 这 本 书 能 够 加 强 你 的 信心 ， 就 像 标 题 说 的 那样 ， 精 通 正则 表达 式 )。 


使 用 占有 优先 量词 削减 状态 


由 正常 量词 约束 的 对 象 匹 配 之 后 ， 会 保留 若干 “在 此 处 不 进行 匹配 ”的 状态 (量词 每 一 轮 
迭代 创建 一 个 状态 ) 。 占 有 优先 量词 (7142) 则 不 会 保留 这 些 状态 。 具 体 做 法 有 两 种 ， 一 
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Pee ER SBS Ase ZETA RARE, BRE AI EE HK RAT HE E 
一 轮 的 备用 状态 (匹配 时 总 需要 保存 一 个 状态 ， 这 样 在 量词 无 法 继续 匹配 的 时 候 引擎 还 能 
继续 运转 ) 。 


在 欠 代 中 即时 抛弃 状态 的 做 法 效率 更 高 ， 因 为 所 占 的 内 存 更 少 。 应 用 .* ,会 在 匹配 每 个 字 
符 时 创造 一 个 状态 ， 如 果 字 符 串 很 长 ， 会 占用 大 量 的 内 存 。 


自动 “占有 优先 转换 ” 


ARAP (7171), ANA Nwa REM ‘subject’, \wu 匹配 到 字符 事 末 尾 时 ， 
最 后 的 冒号 无 法 匹配 ， 所 以 回溯 机 制 会 强迫 w+l 逐 个 交还 字符 ， 在 每 个 位 置 对 ':| 进 
行 杆 劳 的 党 试 。 在 这 个 例子 中 ， 如 果 使 用 固化 分 组 一 (?>\w+) :1 或 者 占有 优先 量词 
“NMw++:l， 能 够 避免 无 谓 的 劳动 。 


聪明 的 实现 方式 应 该 能 自动 做 到 这 一 点 。 编 译 正则 表达 式 时 ， 引 学 会 检查 量词 之 后 的 
元 案 能 匹配 的 字符 是 否 与 量词 作用 元 寨 匹 配 的 字符 重 登 ， 如 果 不 重 登 ， 量词 就 应 该 自 
动 转变 为 占有 优先 的 形式 。 


戴 我 所 知 ， 目 前 还 没有 系统 采用 这 种 优化 ， 在 这 里 列 出 来 ， 是 鼓励 开发 人 员 考 虑 这 个 
问题 ， 困 为 我 坚信 它 能 带 来 实质 性 的 收益 。 





量词 等 价 转 换 


AAJA Aada, 也 有 人 则 习惯 使 用 量词 at4)},。 两 者 的 效率 有 差别 吗 ? tt NFA 来 
说 ， 答 案 几 乎 是 肯定 的 ,但 工具 不 同 ， 结 果 也 不 同 。 如 果 对 量词 做 了 优化 ， 则 八 af4)， 会 更 
快 一 些 ， 除 非 未 使 用 量词 的 正则 表达 式 能 够 进行 更 多 的 优化 。 听 起 来 有 点 迷惑 ? 但 事实 确 
实 如 此 。 


我 的 测试 结果 表明 ，Perl、Python、PHP/PCRE 和 .NET H, '\d(4}; 大 概要 快 20%。 但 是 ， 如 
果 使 用 Ruby 和 Sun 的 Java regex package, "da\a\d\a 则 要 快 上 好 几 倍 。 所 以 , 看 起 来 量词 
在 某 些 工 具 中 要 更 好 一 些 ， 在 另 一 些 工 具 中 则 要 差 一 些 。 不 过 ， 情 况 远 非 如 此 简单 。 


比较 ====; 和 '={4},。 这 个 例子 与 上 面 的 截然 不 同 , 因为 此 时 重复 的 是 确定 的 文字 字符 , 而 
直接 使 用 ====! 引擎 更 容易 将 其 识别 为 一 个 文字 字符 申 。 如 果 是 ， 支 持 的 高 效 的 开头 字符 / 
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字符 组 / 子 串 识别 优化 (7247) 就 可 以 派 上 用 场 。 对 Python 和 Sun 的 Java regex package 来 
说 ， 情 况 正 是 如 此 , ==- Le '=(4)) RE 100 倍 。 


Perl, Ruby 和 .NET 的 优化 手段 更 高 级 ， 它 们 不 会 区 分 ====! 和 '={4}/， 结 果 ， 两 者 是 一 样 
快 的 (而且 都 比 \a\a\a\a) 和 at4); 的 例子 快 成 百 上 千 倍 )。 


需求 识别 


另 一 种 简单 的 优化 措施 是 ， 引 擎 会 预先 取消 它 认 为 对 匹配 结果 没有 价值 的 例如， 在 不 必 
捕获 文本 的 地 方 使 用 了 捕获 型 括号 ) 工作 。 识 别 能 力 在 很 大 程度 上 依赖 于 编程 语言 ， 不 过 
这 种 优化 实现 起 来 也 可 以 很 容易 ， 如 果 在 匹配 时 能 够 指定 某 些 选项 ， 就 能 禁止 某 些 代价 高 
昂 的 特性 。 


Tel 就 能 够 进行 这 种 优化 。 除 非 用 户 明确 要 求 ， 否 则 它 的 捕获 型 括号 并 不 会 真正 捕获 文本 。 
而 .NET 的 正则 表达 式 提 供 了 一 个 选项 ， 容 许 程序 员 指定 捕获 型 括号 是 否 需 要 捕获 。 


fie ie) PIA TE AIRES 


Techniques for Faster Expressions 


之 前 的 数 页 介绍 了 我 见 过 的 传统 型 NFA 引擎 使 用 的 各 种 优化 。 没 有 任何 程序 同时 具备 所 有 
这 些 优化 ， 而 且 无 论 你 爱 用 的 程序 目前 支持 哪些 ， 情 况 也 会 随时 间 而 改变 。 但 是 ， 理 解 可 
能 进行 的 各 种 优化 ， 我 们 就 能 写 出 效率 更 高 的 表达 式 。 如 果 你 还 理解 传统 型 NFA 的 工作 原 
理 ， 把 这 些 知识 结合 起 来 ， 就 可 以 从 三 方面 获 益 : 


。 ”编写 适 于 优化 的 正则 表达 式 编写 适应 已 知 ( 或 者 未 来 会 支持 的 ) 优化 措施 的 表达 式 。 
举例 来 说 ，xx*: 比 x+ 能 适用 的 优化 措施 更 多 ， 例 如 检查 目标 字符 串 中 必须 出 现 的 字 
符 (245)， 或 者 开头 字符 识别 (247)。 


。 ”模拟 优化 有 时 候 我 们 知道 所 用 的 程序 没有 特殊 的 优化 措施 , 但 是 通过 手工 模拟 ,我 们 
还 是 能 节省 大 量 的 时 间 。 比 如 在 "thisithat 之 前 添加 !(?-t),， 这 样 即使 系统 无 法 预 
知 任何 匹配 结果 必须 以 “t ”开头 ， 我 们 还 是 能 模拟 开头 字符 识别 (247)， 下 文 还 会 
深入 讨论 这 个 例子 。 
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主导 引擎 的 匹配 使 用 关于 传统 型 NFA 引擎 工作 原理 的 知识 ， 能 够 主导 引擎 更 快 地 匹 
配 。 拿 thisIthati 来 说 。 每 个 多 选 分 支 都 以 hi 开头 , 如 果 第 一 个 多 选 分 支 不 能 匹配 
thi， 第 二 个 显然 也 不 行 ， 所 以 不 必 白费 工夫 。 因 此 ， 我 们 可 以 使 用 "ch(t?:islat)v。 
ix, th 就 只 要 检查 一 遍 , 只 由 在 确实 需要 的 时 候 才 会 用 到 代价 相对 高 昂 的 多 选 结 构 
功能 。 而 且 ，th(?:islat)! 开 头 的 纯 文 字 字符 就 是 bj， 所 以 存在 进行 其 他 优化 的 可 
能 。 


重要 的 是 认识 到 ， 效 率 和 优化 有 时 候 处 理 起 来 比较 麻烦 。 在 阅读 本 节 其 他 内 容 的 时 候 ， 请 
ANSI PAULA: 


进行 看 来 确实 有 帮助 的 改动 ,有 时 反而 事与愿违 ， 因 为 这 样 可 能 禁止 了 你 所 不 知道 的 ， 
已 经 生效 的 其 他 优化 。 


添加 一 些 内 容 模 拟 你 知道 的 不 存在 的 优化 措施 ， 可 能 出 现 的 情况 是 ， 处 理 那些 添加 内 
容 的 时 间 多 于 节省 下 来 的 时 间 。 


添加 一 些 内 容 模拟 一 个 目前 未 提供 的 优化 ， 如 果 将 来 升级 以 后 的 软件 支持 此 优化 ， 反 
而 会 影响 或 者 重复 真正 的 优化 。 


同样 ， 控 制 表 达 式 尝试 触发 某 种 当前 可 用 的 优化 ， 将 来 某 些 软件 升级 之 后 可 能 无 法 进 
行 某 些 更 高 级 的 优化 。 


为 提高 效率 修改 表达 式 ， 可 能 导致 表达 式 难以 理解 和 维护 。 


具体 的 修改 带 来 的 好 处 (或 是 坏处 ) 的 程度 ， 基 本 上 取决 于 表达 式 应 用 的 数据 。 对 某 
类 数据 来 说 有 益 的 修改 ， 可 能 对 另 一 类 数据 来 说 是 有 害 的 。 


我 来 举 个 极端 点 的 例子 : 你 在 Perl 脚本 中 找到 "(0001999) sj， 并 决定 把 这 些 捕 获 型 括号 赫 
换 为 非 捕获 型 括号 。 你 觉得 这 样 速度 更 快 ， 因 为 不 再 需要 捕获 文本 的 开销 。 但 是 奇怪 的 是 ， 
这 个 微小 而 且 看 起 来 有 益 的 改动 反而 会 把 表达 式 的 速度 降低 许多 个 数量 级 〈 比 之 前 慢 几 千 
倍 )。 怎 么 会 这 样 呢 ? 原来 在 这 里 有 若干 因素 共同 作用 ， 使 用 非 捕获 型 括号 时 ， 字 符 串 结束 
/ 行 错 点 优化 (一 246) 会 被 关闭 。 我 不 希望 劝阻 读者 在 Per 中 使 用 捕获 型 括号 一 一 绝 大 多 数 
情况 下 ， 使 用 他 们 都 是 有 益 的 ， 但 是 在 某 些 情况 下 ， 会 带 来 灾难 性 的 后 果 。 


ill 
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所 以 ， 检 测 并 性 能 而 试 你 期 望 实际 应 用 的 同类 型 的 数据 ， 有 助 于 判断 改动 是 否 值得 ， 但 是 ， 
你 仍然 必须 自己 权衡 众多 因素 。 就 说 这 么 多 ， 下 面 我 开始 讲解 一 些 技巧 ， 你 能 够 用 它们 来 
控 握 引擎 效率 的 最 后 一 点 潜能 。 


常识 性 优化 


Common Sense Techniques 
只 需要 依靠 常识 ， 就 能 进行 一 些 极 有 成 效 的 优化 。 


避免 重新 编译 


编译 和 定义 正则 表达 式 的 次 数 应 该 尽 可 能 的 少 。 在 面向 对 象 式 处 理 中 (一 95) ， 用 户 能 够 精 
确 控制 这 一 点 。 举 例 来 说 ， 如 果 你 希望 在 循环 中 应 用 正则 表达 式 ， 就 应 该 在 循环 外 创建 这 
个 正则 表达 式 对 象 ， 在 循环 中 重复 使 用 。 


在 函数 式 处 理 一 一 例如 GNU Emacs 和 Tel 一 的 情况 下 ， 应 尽量 保证 循环 中 使 用 的 正则 表 
达 式 的 数目 少 于 工具 所 能 缓存 的 上 限 (7244), 


如 果 使 用 的 是 集成 式 处 理 ， 例 如 Perl, ， 应 尽量 避免 在 循环 内 的 正则 表达 式 中 使 用 变量 插值 ， 
因为 这 样 每 次 循环 都 需要 重新 生成 正则 表达 式 , 即使 值 没有 变化 (不过, Perl 提供 了 高 效 的 
办 法 来 避免 这 个 问题 “348)。 

使 用 非 捕 获 型 括号 


如 果 不 需 要 引用 括号 内 的 文本 ， 请 使 用 非 捕获 型 括号 (?:…)， (45)。 这 样 不 但 能 够 节省 
捕获 的 时 间 ， 而 且 会 减少 回 讽 使 用 的 状态 的 数量 ， 从 两 方面 提高 速度 。 而 且 能 够 进行 进 一 
步 的 优化 ， 例 如 消除 无 必要 括号 (7248), 


不 要 滥用 括号 


在 需要 的 时 候 使 用 括号 ， 在 其 他 时 候 使 用 括号 会 阻止 某 些 优化 措施 。 除 非 你 需要 知道 .%， 
匹配 的 最 后 一 个 字符 ,否则 请 不 要 使 用 '(.)*;。 这 似乎 很 显而易见 , 但 是 别 忘 了 ， 本 节 的 标 
题 是 “常识 性 优化 ”。 

不 要 滥用 字符 组 


这 一 点 看 起 来 也 很 显而易见 , 但 是 我 经 常 在 缺乏 经 验 的 程序 员 的 表达 式 中 看 到 '“.*(:]1。 我 
不 知道 为 什么 他 们 会 使 用 只 包含 单个 字符 的 字符 组 一 一 这 样 需要 付出 处 理 字符 组 的 代价 ， 
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但 并 不 需要 用 到 字符 组 提供 的 多 字符 匹配 功能 。 我 认为 ， 当 一 个 字符 是 元 字符 时 一 一 -例如 
1 .1 或 者 'T*],， 可 能 作者 不 知道 通过 转 义 把 它们 转换 为 仆 .和 仆 *。 我 经 常 在 宽松 排列 模 
A (7111) 下 见 到 它们 与 空白 字符 一 起 出 现 。 

同样 ， 读 过 本 书 第 一 版 的 Perl 用 户 可 能 有 时 候 写 出 “[Ff] [Rr] [00] [Mm] :,， 而 不 是 用 不 区 
分 大 小 写 的 “from:i。 老 版 本 的 Perl 在 进行 不 区 分 大 小 写 的 匹配 时 效率 很 低 ， 所 以 我 推荐 
使 用 字符 组 。 但 现在 这 种 做 法 已 不 再 适用 ， 因 为 不 区 分 大 小 写 匹 配 效率 低下 的 问题 在 好 几 
年 前 就 修正 了 。 


使 用 起 始 锚 点 


除非 是 极其 罕见 的 情况 ， 否 则 以 .所 开头 的 正则 表达 式 都 应 该 在 最 前 面 添加 ,或 者 \a， 

( 字 129)。 如 果 这 个 正则 表达 式 在 某 个 字符 串 的 开头 不 能 匹配 ， 那 么 显然 在 其 他 位 置 它 也 
不 能 匹配 。 添 加 销 点 (无 论 是 手工 添加 ， 还 是 通过 优化 自动 添加 了 246) 都 能 够 配合 开头 字 
符 / 字 符 串 / 字 串 识 别 优化 ， 节 省 大 量 不 必要 的 工作 。 


将 文字 文本 独立 出 来 


Expose Literal Text 


我 们 在 本 章 见 过 的 许多 局 部 优化 ， 主 要 是 依靠 正则 引擎 的 能 力 来 识别 出 匹配 成 功 必 须 的 一 
些 文字 文本 。 某 些 引擎 在 这 一 点 上 做 得 比 其 他 引擎 要 好 ， 所 以 这 里 提供 了 一 些 手动 优化 措 
施 ， 有 助 于 “暴露 ”文字 文本 ， 提 高 引擎 识别 的 可 能 性 ， 配 合 与 文字 文本 有 关 的 优化 措施 。 


从 量词 中 “提取 ”必须 的 元 素 

用 xxr BEAR "x+ 能 够 暴露 匹配 必须 的 “x " 。 同 样 的 道理 ，-{5,7) 可 以 写作 ------ (0,2}16 
“提取 ”多 选 结构 开头 的 必须 元 素 

用 'th(?:islat), 赫 代 '(?:thislthat),， 就 能 暴露 出 必须 的 'th;。 如 果 不 同 多 选 分 支 的 结 


尾部 分 相同 ,我 们 也 可 以 从 右面 “提取 ”, 例如 '(?:optimlstandard)ization;。 我 们 会 在 
下 一 节 中 看 到 ， 如 果 提 取出 来 的 部 分 包括 锚 点 ， 这 么 做 就 非常 有 价值 。 


iii 
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将 锚 点 独立 出 来 


Fypose Anchors 


某 些 效果 明显 的 内 部 优化 措施 是 利用 锚 点 〈 例 如“,、s$ 和 疏 G) ， 把 表达 式 “ 绑 定 ”在 目标 
字符 串 的 某 一 端 。 使 用 这 些 优 化 时 ， 某 些 引 擎 的 效果 不 如 其 他 引擎 ， 但 是 有 一 些 技巧 能 够 
提供 帮助 。 


在 表达 式 前 面 独立 出 和 和 \G 


“(?:abc1123)1 和 “abcl^1231 在 逻辑 上 是 等 价 的 ， 但 是 许多 正则 引擎 只 会 对 第 “个 表达 
式 使 用 开头 字符 /字符 串 / 字 串 识别 优化 (246)。 所 以 , 第 一 种 办 法 的 效率 要 高 得 多 。PCRE 
(还 包括 使 用 它 的 工具 ) 中 两 者 的 效率 是 一 样 的 ， 但 是 大 多 数 其 他 NFA 工具 中 第 一 个 表达 
式 的 效率 更 高 。 


比较 (^abc) 和 “(abc) ,我 们 能 发 现 另 一 个 区 别 。 前 者 的 设置 并 不 很 合适 ， 锁 点 “ 藏 ”在 
捕获 型 括号 内 ， 在 检测 销 点 之 前 ， 必 须 首先 进入 括号 ， 在 许多 系统 上 ， 这 样 做 的 效率 很 低 。 
某 些 系 统 (PCRE, Perl, .NET) 中 两 者 的 效率 相当 ， 但 是 在 其 他 系统 中 (Ruby 和 Sun 的 
Java regex package) 只 会 对 后 者 进行 优化 。 


Python 似乎 不 会 进行 锚 点 优化 ， 所 以 这 些 技巧 目前 不 适用 于 Python。 当 然 ， 本 章 介绍 的 大 
多 数 优化 都 不 适用 于 Tel (7243), 


在 表达 式 末尾 独立 出 $ 


此 措施 与 上 一 节 的 优化 思想 非常 类 似 ， 虽 然 abcs1123S$, 和 '"(?:abc1123)5S) 在 逻辑 上 是 等 
价 的 ， 但 优化 的 表现 可 能 不 同 。 目 前 ， 这 种 优化 还 只 适用 于 Perl， 因 为 现在 只 有 Perl 提供 
了 “字符 串 结束 /行销 点 优化 ”〈 灾 246)。 优 化 只 对 leo S RA, 对 Cesis) PEE 
用 。 


忽略 优先 还 是 匹配 优先 ? 具体 情况 具体 分 析 


Lazy Versus Greedy: Be Specific 


通常 ,使 用 忽略 优先 量词 还 是 匹配 优先 量词 取决 于 正则 表达 式 的 具体 需求 。 举 例 来 说 ,“.*:， 
完全 不 同 于 “.*?:!， 因 为 前 者 匹配 到 最 后 的 冒号 ， 而 后 者 匹配 到 第 一 个 冒号 。 但 是 ， 如 果 
目标 数据 中 只 包含 一 个 分 号 ， 两 个 表达 式 就 没有 区 别 了 (匹配 到 唯一 的 分 号 为 止 )， 所 以 选 
择 速度 更 快 的 表达 式 可 能 更 合适 。 


不 过 并 不 是 任何 时 候 优 步 都 如 此 分 明 ， 大 的 原则 是 ， 如 果 目 标 字 符 串 很 长 ， 而 你 认为 分 号 
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会 比较 接近 字符 串 的 开头 ， 就 使 用 忽略 优先 量词 ， 这 样 引擎 能 更 快 地 找到 分 号 。 如 果 你 认 
为 分 号 在 接近 字符 串 末 尾 的 位 置 ， 就 使 用 匹配 优先 量词 。 如 果 数 据 是 随机 的 ， 又 不 知道 分 
号 究竟 会 靠近 哪 一 头 ， 就 使 用 匹配 优先 的 量词 ， 因 为 它们 的 优化 一 般 来 说 都 要 比 其 他 量词 
要 好 ， 尤 其 是 表达 式 的 后 面部 分 禁止 进行 “忽略 优先 量词 之 后 的 字符 优化 ”( 了 248) 时 ， 
更 是 如 此 。 


如 果 待 匹 配 的 字符 串 很 短 ， 差 别 就 不 那么 明显 了 。 这 时 候 ， 两 个 正则 表达 式 的 速度 都 很 快 ， 
不 过 如 果 你 很 在 乎 那 一 点 点 速度 差别 ， 就 对 典型 数据 做 个 性 能 测试 吧 。 


一 个 与 此 有 关 的 问题 是 ， 在 忽略 优先 量词 和 排除 型 字符 组 之 间 ("oe Bees), A 
该 如 何 选择 ? 答案 还 是 取决 于 所 使 用 的 编程 语言 和 应 用 的 数据 ， 但 是 对 大 多 数 引 擎 来 说 ， 
排除 型 字符 组 的 效率 比 忽略 优先 量词 高 的 多 。Perl 是 个 例外 , 因为 它 能 对 忽略 优先 量词 之 后 
的 字符 进行 优化 。 


拆 分 正则 表达 式 


Split Into Multiple Regular Expressions 


有 了 时候， 应 用 多 个 小 正则 表达 式 的 速度 比 一 个 大 正则 表达 式 要 快 得 多 。 举 个 极端 的 例子 ， 
如 果 你 希望 检查 一 个 长 字符 串 中 是 否 包含 月 份 的 名 字 ， 依 次 检查 January), February, 
'Marchj 之 类 的 速度 , 要 比 'January |February |March1…; 快 得 多 。 因 为 对 后 者 来 说 , HE 
在 匹配 成 功 必须 的 文字 内 容 ， 所 以 不 能 进行 “内 婴 文 字 字 符 串 检查 优化 ”( 了 247)。“ 大 而 
全 ”的 正则 表达 式 必 须 在 目标 文本 中 的 每 个 位 置 测 试 所 有 的 自 表达 式 ， 速 度 相 当 慢 。 


撰写 本 章 时 ， 我 遇 到 了 一 个 有 趣 的 情况 。 用 Perl 写 一 个 数据 处 理 模块 时 ， 我 意识 到 客户 端 
程序 有 个 bug， 导 致 它 发 送 奇 怪 的 数据 ， 类 似 “HASH (0x80f60ac) ”而 不 是 真正 的 数据 。 所 
以 ， 我 打算 修正 这 个 模块 ， 寻 找 怪异 数据 的 来 源 ， 并 报告 错误 。 我 使 用 的 正则 表达 式 相当 


BA: '\b(?:SCALARIARRAY |...IHASH) \ (0x(0-9a-fA-F)+\)J. 


在 这 里 ， 效 率 是 非常 关键 的 。 这 个 表达 式 的 速度 如 何 ? Perl 的 调试 模式 (debugging mode) 
能 够 告诉 你 它 对 特定 表达 式 使 用 的 某 些 优 化 (361)， 所 以 我 进行 了 检查 。 我 希望 启用 了 
预 查 必须 字符 /字符 串 优化 (245)， 因 为 足够 先进 的 引擎 应 该 能 够 明白 “(0x” 是 任何 匹配 
所 必须 的 。 因 为 这 个 正则 表达 式 所 应 用 的 数据 几乎 不 包含 “(0x" ， 我 相信 预 查 能 够 节省 许 
多 时 间 。 不 幸 的 是 , Perl 没有 这 样 做 ,所 以 程序 必须 在 每 个 目标 字符 串 的 每 个 字符 那里 测试 
整个 正则 表达 式 的 众多 多 选 分 支 。 速 度 达 不 到 我 的 要 求 。 
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因为 正在 研究 和 撰写 与 优化 有 关 的 内 容 ， 所 以 我 足 思 苦 想 ， 这 个 表达 式 应 该 怎样 写 才 能 得 
到 优化 。 一 个 办 法 是 以 复杂 的 方式 '\(0x(?<=(?:SCALAR|:… |HASH)\ (0x)[0-9a-fA-F] 
+\) Jj。 这样 ,一旦 (0x 匹配 之 后 ,肯定 型 顺序 环视 (下 画 线 标注 部 分 ) 就 能 确保 之 前 匹配 
的 是 需要 的 文本 ， 再 检查 之 后 的 文本 是 否 符合 期 望 。 费 这 番 周 折 的 原因 在 于 ， 让 正则 表达 
式 获 得 必须 出 现 的 文字 文本 ox, 这 样 就 能 进行 多 种 优化 。 尤 其 是 , 我 希望 进行 预 查 必须 
字符 串 优 化 ， 以 及 开头 字符 /字符 组 / 子 串 识别 优化 (247)。 我 确定 这 样 速度 会 很 快 ， 但 是 
Perl 不 支持 长 度 不 定 的 逆序 环视 {133)， 所 以 我 得 想 办 法 来 绕 开 它 。 

不 过 我 发 觉 ， 如 果 Perl 不 会 自动 预 查 “ (0x,， 我 可 以 自己 动手 : 

if ($data =~ m/\ (Ox/ 


and 
$data =~ m/(?:SCALAR|ARRAY|...!HASH) \ (0x[0-9a-fA-F]+\)/) 





( 
# ”错误 数据 ， 报 警 
) 
、 (0x! 的 检查 事实 上 会 过 滤 大 部 分 文本 ， 相 对 较 慢 的 完整 正则 表达 式 只 对 有 可 能 匹配 的 行 
进行 检测 ， 这 样 就 在 效率 (非常 高 ) 和 可 读 性 (非常 高 ) 之 间 达 到 了 完美 的 平衡 ( 注 7)。 


模拟 开头 字符 识别 


Mimic Initial-Character Discrimination 


如 果 你 的 实现 方式 没有 进行 开头 字符 识别 优化 (247)， 则 可 以 亲自 动手 ， 在 表达 式 的 开 
头 添加 合适 的 环视 结构 (133)。 在 正则 表达 式 的 其 他 部 分 匹配 之 前 ， 环 视 结构 可 以 进行 
“ 预 查 ”， 选 择 合适 的 开始 位 置 。 


如 果 正 则 表达 式 为 Jan|Feb1…|Deci, 对 应 的 就 是 '(?= [JFMASOND] ) (?:JanlFeb|…|Dec),。 
开头 的 【[JFMASOND]1 代 表 了 英文 中 月 份 单词 可 能 的 开始 字母 。 不 过 这 种 技巧 并 不 是 所 有 情 
况 下 都 适用 的 ， 因 为 ， 环 视 结构 的 开销 可 能 大 于 节省 的 了 时间。 在 这 个 例子 中 ， 因 为 多 数 多 
选 分 支 都 可 能 匹配 失败 ， 预 查 对 我 测试 的 大 多 数 系统 (Java, Perl, Python, Ruby, .NET) 

都 是 有 用 的 ， 因 为 它们 都 不 能 自动 从 'Jan1Febl…1Dec! 得 到 开头 的 '[JFMASOND1 s 


注 7: 你 可 以 亲自 去 看 看 。 提 到 的 模块 是 (CPAN 上 的 ) DBIx:: DWIW， 它 容许 非常 方便 地 访问 
MySQL 数据 库 。 由 Jeremy Zawodny 和 我 在 Yahoo! 开 发 。 
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在 默认 情况 下 ，PHP/PCRE 并 不 会 进行 这 种 优化 ， 但 是 如 果 使 用 PCRE 的 pcre_study (也 
就 是 PHP 中 的 模式 修饰 符 S, 7478) 则 可 以 。 而 Tol 显然 能 够 完美 地 做 到 这 一 点 (9243), 


如 果 正 则 引擎 能 自动 进行 IJFMAsoND] ,的 检测， 速度 当然 会 比 用 户 手 工 指定 快 得 多 。 我 们 
有 没有 办 法 让 引擎 自动 进行 检测 呢 ? 在 许多 系统 上 ， 我 们 可 以 用 下 面 这 个 复杂 得 要 命 的 表 
达 式 : 


{ JFMASOND] (?:(?<=J)anl(?3<=F)ebl1…1(?<=D)jec)) 


我 可 不 指望 你 能 看 一 眼 就 明白 这 个 表达 式 ， 但 是 花 点 时 间 和 仔细 琢磨 倒是 很 值得 的 。 表 达 式 
开头 的 字符 组 可 以 被 大 多 数 系统 的 开头 字符 识别 优化 所 利用 ， 这 样 传动 装置 就 能 够 高 效 地 
预 查 [JFMASOND] 1。 如 果 目 标 字符 串 不 包含 匹配 字符 ， 结 果 会 比 原来 的 'Jan1…1Dec 或 是 
手工 添加 环视 功能 的 表达 式 要 快 。 但 是 ， 如 果 目 标 字符 串 中 包含 许多 字符 组 能 够 匹配 的 字 
符 ， 那 么 额外 的 逆序 环视 可 能 反而 会 减 慢 匹配 的 速度 。 最 主要 的 问题 是 ， 这 个 正则 表达 式 
显然 很 难看 懂 。 但 是 ， 这 个 例子 倒是 很 有 意思 ， 也 很 启发 人 。 


不 要 在 Tcl 中 这 么 做 


上 面 的 优化 例子 其 实 降低 了 表达 式 的 可 读 性 。243 页 的 补充 内 容 提 到 ,不 同形 式 的 正则 表达 
式 在 Tel 中 的 表现 是 相同 的 ， 所 以 在 Tcl 中 ， 大 多 数 优化 并 没有 意义 。 不 过 ， 有 个 例子 中 优 
化 确实 有 影响 。 根 据 我 的 测试 , 手动 添加 '(?=[JFMASOND] ) ,会 把 速度 降低 到 原来 的 1/100, 


不 要 在 PHP 中 这 么 做 

之 前 我 们 已 经 提 到 过 ,不 应 该 在 PHP 中 进行 优化 ， 因 为 我 们 能 够 使 用 PHP 的 “study” 功 能 
一 一 模式 修饰 符 S 一 一 来 启用 优化 。 详 见 第 10 章 第 478 页 。 

使 用 固化 分 组 和 占有 优先 量词 

Use Atomic Grouping and Possessive Quantifiers 


在 许多 情况 下 ， 国 化 分 组 (7139) 和 占有 优先 量词 (7142) 能 够 极 大 地 提高 匹配 速度 ， 而 
且 它 们 不 会 改变 匹配 结果 。 举 例 来 说 , 如果“[^:]+:: 中 的 冒号 第 一 次 尝试 时 无 法 匹配 ， 那 
么 任何 回溯 其 实 都 是 没有 意义 的 ， 因 为 根据 定义 ， 加 漳 “ 交 还 ”的 任何 字符 都 不 可 能 是 冒 
号 ,使 用 固化 分 组 “^(?>[^:]+) :1 或 者 占有 优先 量词 “[^:]++:1 就 能 够 直接 抛弃 备用 状态 ， 
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或 者 根本 不 会 创造 多 少 备 用 状态 。 因 为 引擎 没有 内 容 状态 可 以 回 滴 ， 就 不 会 进行 不 必要 的 
回溯 (第 251 页 的 补充 内 容 说 明 ， 足 够 聪明 的 引擎 能 够 自动 进行 这 种 优化 )。 


不 过 ， 我 必须 强调 ， 这 两 种 结构 运用 不 当 ， 就 会 在 不 经 意 间 改变 匹配 结果 ， 所 以 必须 极为 
小 心 。 如 果 不 用 “.*: 而 用 “(?>.*):， 结果 必然 会 失败 。 整 行文 本 都 会 被 .*, 匹配 , 后 面 
的 :就 无 法 匹配 任何 字符 。 固化 分 组 阻止 最 后 的 :匹配 必须 进行 的 回溯, 所 以 匹配 必定 失 
败 。 


主导 引擎 的 匹配 


Lead the Engine to a Match 


提高 正则 表达 式 匹 配 效率 的 另 一 个 办 法 是 尽 可 能 准确 地 设置 匹配 过 程 中 的 “控制 权 "。 我 们 
曾经 看 过 的 用 th(?:islat), 取 代 'thislthat, 的 例子 。 在 后 一 个 表达 式 中 , 多 选 结构 获得 
最 高 级 别 的 控制 权 ， 而 在 前 一 个 表达 式 中 ， 相 对 代价 更 高 唱 的 多 选 结构 只 有 在 “hi 匹配 之 
后 才 获得 控制 权 。 


下 一 节 “ 消 除 循环 ”是 这 种 技巧 的 高 级 形式 ， 此 处 再 介绍 些 简单 的 技巧 。 


将 最 可 能 匹配 的 多 选 分 支 放 在 前 头 


在 本 书 中 我 们 看 到 ， 许 多 时 候 多 选 分 支 的 摆 放 顺序 非常 重要 (728, 176, 189, 216), 在 
这 些 情况 下 ， 摆 放 顺 序 比 优化 更 重要 ， 但 相反 ， 如 果 顺 序 与 匹配 正确 无 关 ， 就 应 该 把 最 可 
能 匹配 的 多 选 分 支 放 在 首位 。 


举例 来 说 ， 在 匹配 主机 名 的 正则 表达 式 (7205) 中 ， 有 人 可 能 习惯 把 后 缀 按照 字母 顺序 排 
序 ， 例 如 (?:aerolbizlcomlcoop|…)i。 不 过 ， 某 些 排 在 前 头 的 后 绥 应 用 并 不 广泛 ， 匹 配 
极 有 可 能 失败 , 为 什么 要 把 他 们 排 在 前 头 呢 ? 如果 按照 分 布 数量 的 排序 :"(? :comledulorgl 
net|…))， 更 有 可 能 获得 更 迅速 更 常见 的 匹配 。 


当然 , 这 只 有 对 传统 型 NFA 引擎 才 适 用 , 而 且 只 有 存在 匹配 的 时 候 才 适用 。 如 果 使 用 POSIX 
NEFA， 或 是 不 存在 匹配 ， 此 时 所 有 的 多 选 分 支 都 必须 检测 ， 所 以 顺序 是 无 关 紧 要 的 。 
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将 结尾 部 分 分 散 到 多 选 结 构 内 


接 下 来 我 们 比较 (?:comleau1..1[a-z] [a-z])\bj 和 "com\bledau\b1..\bl[a-zl[a-zl\b。 
在 后 一 个 表达 式 中 ， 多 选 结构 之 后 的 \b 被 分 散 到 每 个 多 选 分 支 。 可 能 的 收益 就 是 ， 它 可 
能 容许 一 个 多 选 分 支 能 够 匹配 ， 但 多 选 分 支 之 后 的 、\b 可 能 导致 这 个 匹配 不 成 功 ， 把 \b， 
加 到 多 选 结构 之 内 ， 匹 配 失败 的 更 快 。 这 样 不 需要 退出 多 选 结构 就 能 发 现 失败 。 


要 说 明 这 个 技巧 的 价值 ， 这 可 能 还 不 是 最 好 的 办 法 ， 因 为 它 只 是 适用 于 一 种 特殊 情形 ， 即 
多 选 分 支 可 能 能 够 匹配 ， 但 是 之 后 紧 接 的 字符 可 能 令 匹 配 失败 。 在 本 章 中 我 们 会 看 到 一 个 
更 合适 的 例子 一 一 请 参考 280 页 关于 $oTHER* 的 讨论 。 


这 个 优化 是 有 风险 的 。 切 记 ， 使 用 这 个 功能 时 要 小 心 ， 不 要 因此 阻止 了 本 来 可 以 进行 的 其 
他 优化 。 举 例 来 说 ， 如 果 “ 分 散 的 ” 子 表 达 式 是 文字 文本 ， 那 么 把 (? :chislchac) :), 更 
换 为 this: 1that :1 就 违背 了 “将 文字 文本 独立 出 来 ”( 了 255) 中 的 某 些 思想 。 各 种 优化 都 
是 平等 的 ， 所 以 在 优化 时 请 务必 小 心 ， 不 要 因 小 失 大 。 


在 能 够 进行 独立 结尾 锚 点 (256) 的 系统 上 把 正则 表达 式 末 尾 的 '$, 分 散 , 也 会 遇 到 这 种 问 
题 。 在 这 些 系统 上 ，(?:comledu1..)$! 比 "com$sledu$1…$ 快 得 多 (我 测试 了 各 种 系统 ,只 
有 Perl 使 用 了 这 种 优化 )。 


消除 循环 


Linrolling the Loop 


无 论 系统 本 身 支 持 怎样 的 优化 ， 最 重要 的 收益 或 许 还 是 来 自 于 对 引擎 基本 工作 原理 的 理解 ， 
和 编写 能 够 配合 引擎 工作 的 表达 式 。 所 以 ， 既 然 我 们 已 经 考察 了 繁琐 的 细节 ， 不 妨 登 堂 入 
室 ， 学 习 我 说 的 “消除 循环 ”的 技巧 。 对 某 些 常用 的 表达 式 来 说 ， 它 的 加 速效 果 很 明显 。 
举例 来 说 ， 用 它 改造 本 章 开头 (7226) 会 进行 无 休止 匹配 的 表达 式 ， 能 够 在 有 限 的 时 间 内 
报告 匹配 失败 ， 而 如 果 能 够 匹配 ， 速 度 也 会 更 快 。 


此 处 说 的 “循环 ”采用 的 是 和 (this1that1…) *| 之 类 问题 中 星 号 代表 的 意义 。 之 前 的 无 休止 匹 
配 “(\\ .Ice\\"+)*o 其 实 就 属于 此 类 。 如 果 无 法 匹配 ,这 个 表达 式 需 要 近乎 无 限 的 时 间 
进行 尝试 ， 所 以 必须 改进 。 


ill 
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此 技巧 有 两 种 不 同 的 实现 途径 : 


1. 我 们 可 以 检查 ， 在 各 种 典型 匹配 中 ,QW\ "e A 中 的 哪个 部 分 真正 匹配 成 功 了 ， 
这 样 就 能 留 下 子 表 达 式 的 痕迹 。 再 根据 刚刚 发 现 的 模式 ， 重 新 构建 高 效 的 表达 式 。 这 个 
(或 许 联系 不 那么 紧密 的 ) 概念 模型 就 是 一 个 大 球 ， 它 表示 表达 式 (…) *,， 球 在 某 些 文 
本 上 滚动 。(…)) 内 的 元 素 总 是 能 够 匹配 某 些 文本 , 这样 就 留 下 了 痕迹 ， 就 好 像 是 把 脏 今 
今 的 雪 球 在 地 毯 上 滚 过 去 一 样 。 


2. 另 一 个 办 法 是 ， 从 更 高 的 层面 考察 我 们 期 望 用 于 匹配 的 结构 。 然 后 根据 我 们 认为 的 常见 
情形 ， 对 可 能 出 现 的 目标 字符 串 做 出 非 正式 假设 。 从 这 个 角度 出 发 构建 有 效 的 表达 式 。 


无 论 采 取 哪 种 办 法 ， 得 到 的 表达 式 都 是 一 样 的 。 我 首先 讲解 第 一 种 思路 ， 然 后 介绍 如 何 通 
过 第 二 种 思路 取得 同样 的 结果 。 


为 了 保证 例子 容易 看 情 , 并 尽 可 能 广泛 地 使 用 , 我 会 使 用 (…) ,来 代替 所 有 括号 , 如 果 程 序 
支持 非 捕 获 型 括号 '(?:…) ;能 够 支持 , 使 用 它们 能 提高 效率 。 然 后 会 讲解 固化 分 组 (7139) 
和 占有 优先 量词 (7142) 的 使 用 。 


方法 1: 依据 经 验 构 建 正则 表达 式 


Method 1: Building a Regex From Past Expertences 


在 分 析 “"(\\.1[^\\"]+)* 时 , 用 若干 具体 的 字符 串 来 检验 全 局 匹配 的 具体 情况 是 很 自然 
的 做 法 。 举 例 来 说 ， 如 果 目 标 字符 串 是 “"hi"' ， 那 么 使 用 的 自 表 达 式 就 是 “[^\\"1+ "1。 
这 说 明 ， 全 局 匹配 使 用 了 最 开始 的 “";,， 然 后 是 多 选 分 支 '[^\\"]+1， 然 后 是 末 是 的 "1。 


"he said \"hi there\" and left" 


RRA FASB "AE OVA AN Ane FETA BOR 6-2, $ 
标记 了 对 应 的 正则 表达 式 ， 让 模式 更 显眼 。 如 果 我 们 能 对 每 个 输入 字符 串 构 造 特定 的 表达 
式 当 然 很 好 。 这 不 可 能 ， 但 我 们 能 够 找 出 一 些 常用 的 模式 ， 构 造 效 率 更 高 ， 又 不 失 通用 性 
的 正则 表达 式 。 


现在 来 看 表 6-2 前 面 的 四 个 例子 。 下 夯 线 标注 的 部 分 表示 “一 个 转 义 元 素 , 然后 是 更 多 的 正 
常 字符 ”。 这 就 是 关键 : 在 每 种 情况 下 ， 开 头 是 引号 ， 然 后 是 '[^\\"]+;， 然 后 是 若干 个 
AALI" + SEA RE RRB COV DEAN. [~^\\"]+)*1。 这 个 特殊 的 例子 说 明 ， 通 用 模 
式 可 以 用 来 构建 许多 有 用 的 表达 式 。 
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表 6-2: 消除 循环 的 具体 情况 


目标 字符 串 ë ”| 对 应 的 表达 3 ERE NHS 

"hi there" EANET. 

"just one \" here" N\A 

"some \"quoted\" things" "人 \\"] + [人 \\") + BANA +" 

“with \"a\" and \"b\"." ["(*\\") +R (*\\" ) + SRS ANN" ] + 人"]+ BR +" 
"\"ok\"\n" "XN2 (*\\" M NS” 

"empty \"\" quote” [M] Be (*\\") +" 


构造 通用 的 “消除 循环 ”解法 


在 匹配 双 引 号 字符 串 时 ， 引 号 自身 和 转 义 斜 线 是 “特殊 ”的 一 一 因为 引号 能 够 表示 字符 串 
的 结尾 , 反 斜 线 表示 它 之 后 的 字符 不 会 终结 整个 字符 串 。 在 其 他 情况 下 , ![^\\"]) 就 是 普通 
的 点 号 。 考 察 它们 如 何 组 合 为 “[^\"]+ (WE[^\\"]+)*)， 首 先 它 符合 通用 的 模式 
normal+ (special normal: ) * |, 





再 添加 两 端的 引号 ， 就 得 到 “" [^\"]+ AA Ao RERE, X 6-2 中 下 面 两 个 例 
子 无 法 由 这 个 表达 式 匹配 。 症 结 在 于 , 目前 这 个 正则 表达 式 的 两 个 'T^\\"] + 要 求 字 符 串 以 
一 个 普通 字符 开始 ， 然 后 是 任何 数目 的 特殊 字符 。 从 这 个 例子 中 我 们 可 以 看 到 ， 它 并 不 能 
应 付 所 有 情况 一 一 字符 串 可 能 以 转 义 元 素 开 头 和 结尾 ,一 行 中 间 也 可 能 包含 两 个 转 义 元 素 。 


我 们 可 以 尝试 把 两 个 加 号 改 成 星 号 : " [^\\"]* (定量 [^\\"]*)*"。 这 会 达到 我 们 期 望 的 结 
果 吗 ? 更 重要 的 是 ， 它 是 否 会 产生 负面 影响 ? 


就 期 望 的 结果 来 说 ， 很 容易 看 到 所 有 的 例子 都 能 匹配 。 事 实 上 ， 即 使 是 "\"\"\ "这 样 的 字 
符 串 都 能 匹配 。 这 当然 很 不 错 。 不 过 ， 我 们 还 需要 确认 ， 这 样 重大 的 改变 ， 是 否 会 导致 预 
料 之 外 的 结果 。 格 式 不 对 的 引号 字符 串 能 否 匹 配 呢 ? 格式 正确 的 引号 字符 串 是 否 可 能 无 法 
匹配 呢 ? 效率 又 如 何 呢 ? 

FEE avg AAE u. FRR vu 只 会 应 用 一 次 , 这 没有 问题 : 它 
匹配 开头 必须 出 现 的 引号 ， 以 及 之 后 的 任何 普通 字符 。 这 没有 问题 。 接 下 来 的 
(MN. (O\\" 1 *) ES REN, 所 以 不 匹配 任何 字符 也 能 够 成 功 。 也 就 是 说 , 去掉 这 一 
部 分 仍然 会 得 到 一 个 合法 的 表达 式 。 这 样 我 们 就 得 到 [^\\"]*"， 这 显然 没有 问题 一 一 它 
代表 了 常见 的 ， 也 就 是 没有 转 义 元 素 的 情形 。 


另 一 方面 , WR Ao 轧 部 分 匹配 了 一 次 , HERR SO [^\\"]* ye, 
Se p ee 
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即使 结尾 的 [^\\ “六 没有 匹配 任何 文本 (SESE ANN), BAAR., Rik 
样 分 析 下 去 (如果 没 记 错 的 话 ， 这 就 是 高 中 代数 中 的 “了 照 此 类 推 (by induction)”)， 我 们 发 
现 ， 这 样 的 改动 其 实 是 没有 任何 问题 的 。 


所 以 ， 我 们 最 后 得 到 的 ， 用 来 匹配 包括 转 义 引号 的 引号 字符 串 的 正则 表达 式 就 是 ; 
Pm [AM] (NN ENN A) wo 


真正 的 “消除 循环 ”解法 


The Real “Unrolling-the-Loop ” Pattern 


综合 起 来 ,匹配 包括 转 义 引 号 的 双 引 号 字符 串 正 则 表达 式 就 是 "{^\\"l*tN\\.[I^\V"jw)x， 
这 和 原来 的 表达 式 能 够 匹配 的 结果 是 完全 一 致 的 。 但 是 循环 消除 之 后 ， 表达 式 能 够 在 有 限 
的 时 间 内 结束 匹配 。 不 但 效率 高 得 多 ， 并 且 避 免 了 无 休止 匹配 。 


消除 循环 常用 的 解法 是 : 


‘opening normal* (special normal* )* closing 


避免 无 休止 匹配 


BEB CONT OA IAA) 中 的 无 休止 匹配 ， 有 三 点 很 重要 : 
1) special 部 分 和 normal 部 分 匹配 的 开头 不 能 重合 。 


special 和 normal 部 分 的 子 表 达 式 不 能 从 同一 位 置 开始 匹配 。 在 上 例 中 ，normal 部 分 是 
【^\\"]，special 部 分 是 仆 .,， 显 然 它 们 不 能 匹配 同样 的 字符 ， 因 为 后 者 要 求 以 反 斜 线 开 
头 ， 而 前 者 不 容许 出 现 开头 的 反 斜 线 。 


PA, AA [^"] 都 能 够 从 “"Hello \n"” 开 始 匹配 ， 所 以 它们 不 符合 这 种 解法 。 

如 果 二 者 能 够 从 字符 串 中 的 同一 位 置 开 始 匹配 ， 就 无 法 确定 该 使 用 哪 一 个 ， 这 种 不 确定 就 
会 造成 无 休止 匹配 。'‘maku8enaru8e” 的 例子 说 明了 这 一 点 (一 227)。 如 果 无 法 匹配 (或 是 
POSIX NFA 引擎 在 任何 情况 下 的 匹配 ) ， 就 必须 尝试 所 有 的 可 能 性 。 这 非常 精 糕 ， 因 为 改进 
这 个 表达 式 的 首要 原因 就 是 为 了 避免 这 种 情况 。 


如 果 我 们 确信 ，special 和 normal 部 分 不 能 匹配 同样 的 字符 , 就 可 以 将 special 部 分 用 作 检 查 
点 ,消除 normal 部 分 在 '(…) *, 的 各 轮 迭 代 时 匹配 同样 文本 造成 的 不 确定 性 。 如 果 我 们 确信 
special 部 分 和 normal 部 分 永远 不 会 匹配 同样 的 文本 ， 则 特定 目标 字符 串 的 匹配 中 存在 唯一 
的 special 部 分 和 normal 部 分 的 “组 合 序列 ”。 检 查 这 个 序列 比 检查 成 千 上 万 种 可 能 要 快 得 
£, FERE TEREE., 
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2) normal 部 分 必须 匹配 至 少 一 个 字符 


第 二 点 是 ， 如 果 normal 部 分 需要 匹配 字符 才能 成 功 ， 则 它 必 须 匹 配 至 少 一 个 字符 。 如 果 我 
们 能 够 匹配 成 功 ， 而 不 占用 任何 字符 ， 那 么 下 面 的 字符 仍然 必须 由 special normal +) *; fi’) 
不 同 迭 代 来 匹配 ， 这 样 我 们 就 回 到 了 原来 的 (…*)* 的 问题 。 


选择 '(\\.)*, 作 为 special 部 分 就 违背 了 这 条 规定 。" [^\\"]*( ES 是 [^\\."]*)*" 注 定 是 
个 糟糕 的 表达 式 ， 如 果 用 它 来 匹配 “"Tubby” (会 失败 )， 在 得 到 匹配 失败 的 结论 之 前 ， 引 
人 擎 必须 尝试 若干 个 '[^\\*"] si 匹配 “Tubby ”的 每 一 种 可 能 。 因 为 special 部 分 可 以 不 匹配 任 
何 字 符 ， 所 以 它 无 法 作为 检查 点 。 


3) special 部 分 必须 是 固化 的 


special 部 分 匹配 的 文本 不 能 由 该 部 分 的 多 次 迭代 完成 。 如 果 需 要 匹配 Pascal 中 可 能 出 现 的 
注释 (…} 和 空白 。 能 够 匹配 注释 部 分 的 正则 表达 式 是 CI^)] *\)， 所 以 整个 正则 表达 式 就 
RECN CLO) *\) bee ts ( 它 永 远 不 会 终止 )。 或 许 ， 你 会 这 样 划分 normal 和 special 部 分 : 


Me a>, j 
OMe: e SARK ) E EA a oe 3: 


SALDAN 













使 用 我 们 学 会 的 ‘normal* (special normal*)* | 9 WR, ROBB OAD] * 
(于 (\([^}]*\))*)*i。 现 在 来 看 这 个 字符 串 


{comment }***{another}** 


匹配 连续 空格 的 可 能 是 单个 +, 或 多 个 “+ 匹配 (每 个 匹配 一 个 空格 ) , 或 是 多 个 “+ 的 组 
合 (每 个 匹配 不 同 数 目的 空格 ) 。 这 很 像 之 前 的 “makudaonarudao” 的 问题 。 


UUUUUUUUUUUU 


此 问题 的 根源 在 于 ，special 部 分 既 能 够 匹配 很 长 的 文本 ,也 能 通过 (…) * 匹 配 其 中 的 部 分 文 
本 。 非 确定 性 开 了 “多 种 方式 匹配 同样 文本 ”的 口子 。 


如 果 存 在 全 局 匹配 , 很 可 能 “+ 只 匹配 一 次 , 但 是 如 果 不 存在 全 局 匹配 (例如 把 这 个 表达 式 
作为 另 一 个 大 的 表达 式 的 一 部 分 ), 引擎 就 必须 对 每 一 段 空 格 测试 ("+)*, 所 有 的 可 能 。 这 需 
要 时 间 ， 但 这 对 全 局 匹配 无 益 。 因 为 special 部 分 应 该 作为 检查 点 ， 而 这 里 没有 任何 需要 检 
查 的 非 确定 性 。 


解决 的 方法 就 是 ， 保 证 special 部 分 只 能 够 匹配 固定 长 度 的 空格 。 因 为 它 必 须 匹配 至 少 一 个 
空格 ,但 可 能 匹配 更 多 ,我 们 用 "作为 special 部 分 ， 用 (…) * 来 保证 special 的 多 重 应 用 
能 匹配 多 个 空格 。 
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这 个 例子 很 适合 讲解 ， 但 是 实际 应 用 起 来 ， 效 率 更 高 的 办 法 可 能 是 交换 special 和 normal 
表达 式 : 

‘+ (CEPR: *) +, 
为 我 估计 Pascal 程序 的 注释 不 会 比 空格 少 ,而 且 对 常见 情况 来 说 更 有 效 的 办 法 是 用 mormal 
部 分 匹配 常见 的 文本 。 


寻找 通用 套路 


如 果 你 真正 掌握 了 这 些 规则 (可 能 需要 反复 阅读 和 一 些 实践 ) ， 你 就 能 把 这 几 条 推广 开 来 ， 
作为 指导 规则 ， 用 来 识别 可 能 造成 无 休止 匹配 的 正则 表达 式 。 如 果 有 若干 个 量词 存在 于 不 
同 的 层面 , 例如 (…*) *, 我 们 就 必须 小 心 对 待 , 但 是 许多 这 样 的 表达 式 却 是 完全 没有 问题 
的 。 例 如 : 


。 (Re:**)* 用 来 匹配 任意 数目 的 “Re:” 序列 (可 以 用 来 清除 邮件 主题 中 的 “subject: 


*Re:*Re:*Re:*hey’), 
© “("*\$[0-9]+)* 用 来 匹配 美元 金额 ， 可 能 有 空格 作 分 隔 。 


” “(.*\n)ti 用 来 匹配 一 行 或 多 行文 本 。( 事 实 上 ， 如 果 点 号 不 能 匹配 换行 符 ， 而 这 个 子 
表达 式 之 后 又 有 别 的 元 素 导 致 匹配 失败 ， 就 会 造成 无 休止 匹配 ) 。 


这 些 表达 式 都 没有 问题 ， 因 为 每 一 个 都 有 检查 点 ， 也 就 不 会 产生 “多 种 方式 匹配 同样 文本 ” 
的 问题 。 在 第 一 个 里 面 是 Reu BAERE nS, BZA (如果 点 号 不 能 匹配 换行 符 ) 
E'n. 


方法 2: 自 顶 向 下 的 视角 


Method 2: A Top-Down View 


还 记得 吗 ? 我 说 过 ,“ 消 除 循环 ”有 两 种 办 法 。 如 果 采 用 第 二 种 办 法 ， 开 始 只 匹配 目标 字符 
串 中 最 常见 的 部 分 ， 然 后 增加 对 非常 见 情 况 的 处 理 。 让 我 们 来 看 会 造成 无 休止 匹配 的 表达 
FONE A" A 期望 匹配 的 文本 以 及 它 可 能 应 用 的 场合 。 我 认为 ， 通 常情 况 下 引用 字 
符 串 中 的 普通 字符 会 比 转 义 字符 更 多 ， 所 以 上 [^\"]+ 承担 了 大 部 分 工作 。"\\ .只 需要 用 
来 处 理 偶 然 出 现 的 转 义 字 符 。 我 们 可 以 使 用 多 选 结 构 来 应 付 两 种 情况 ， 但 精 糕 的 是 ， 为 了 
处 理 少 部 分 ( 决 不 可 能 是 大 部 分 ) 转 义 字符 ， 这 样 做 会 降低 效率 。 


如 果 我 们 认为 T^\\"] + 能 够 匹配 字符 串 中 的 绝 大 部 分 字符 , 就 知道 如 果 匹 配 停止 , 大 概 是 
过 到 了 闭 引 号 或 者 是 转 义 字符 。 如 果 是 转 义 字符 , 后 面容 许 出 现 更 多 的 字符 (无 论 是 什么 )， 
然后 开始 [~^\\"]+! 的 新 一 轮 匹配 。 每 次 [~^\\"]+ 的 匹配 终止 , 我们 都 回 到 相同 的 处 境 : 期 
望 出 现 一 个 闲 引号 或 者 是 另 一 个 转 义 。 
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我 们 可 以 很 自然 地 用 一 个 表达 式 来 表达 它 ， 得 到 与 方法 1 同样 的 结果 : 


f 


of Gand We TN 
A 


我 们 知道 ， 匹 配 每 次 进行 到 ,标记 的 位 置 时 ， 应 该 出 现 一 个 反射 线 或 者 闭 双 引号 。 如 果 反 和 斜 
线 能 匹配 ， 就 匹配 它 ， 然 后 是 被 转 义 的 字符 ， 然 后 是 更 多 的 字符 ， 直 到 下 一 次 到 达 “ 闭 引 
号 或 者 反 斜 线 ”的 位 置 。 


和 之 前 一 样 ， 最 开始 的 非 引 用 内 容 或 是 引号 内 的 文本 可 能 为 空 。 我 们 可 以 把 两 个 加 号 改 成 
星 号 ， 这 样 就 得 到 与 264 页 相同 的 表达 式 。 


方法 3， 匹配 主机 名 


Method 3: An Internet Hostname 


上 面 介 绍 了 两 种 消除 循环 的 办 法 ， 不 过 我 还 愿意 介绍 另 一 种 办 法 。 在 用 正则 表达 式 匹 配 如 
www.yahoo.com 这 样 的 主机 名 时 ， 它 令 我 震惊 。 主 机 名 主要 是 用 点 号 分 隔 的 子 域名 的 序列 ， 
准确 地 划 定 子 域名 的 匹配 规范 很 麻烦 (7203), 为 了 保证 清晰 ， 我 们 使 用 '[a-z]+ /来 匹配 
子 域 名 。 


如 果子 域名 是 ia-z]+ ;, 我 们 希望 得 到 点 号 分 隔 的 子 域名 序列 , 首先 要 匹配 第 一 个 子 域名 。 
之 后 其 他 的 子 域名 以 点 号 开头 。 用 正则 表达 式 来 表示 ， 就 是 [a-zl+(t\.[a-zl+)*i。 现 在 ， 
如 果 我 希望 添加 上 前 面 出 现 的 各 种 标记 , 就 得 到 [a-z]l+(\.[a-zl+)*i， 显然 它 看 起 来 非常 
熟悉 ， 对 吗 ? 


为 了 说 明 这 种 相似 性 ， 我 们 尝试 把 它 对 应 到 双 引 号 字符 串 的 例子 。 如 果 我 们 认为 字符 串 是 

eer? ZARE, pi normal BS} '(*\\" 1, HA special 部 分 \ 八 . 分隔， 就 能 套用 消 
除 循环 的 解法 ， 得 到 “"I^\\"srtA\.ieA\+)*o 中， 也 就 是 在 讨论 方法 1 中 的 某 个 地 步 。 
也 就 是 说 ， 从 概念 上 讲 ， 我们 能 够 把 由 点 号 分 隔 的 主机 名 的 问题 看 成 双 引 号 字符 串 的 问题 ， 
也 就 是 “由 转 义 元 素 分 隔 的 非 转 义 元 素 构成 的 序列 ”。 这 可 能 不 那么 直观 ， 但 是 我 们 可 以 使 
用 前 面 用 过 的 套路 。 


二 者 既 存 在 相似 性 ， 也 存在 区 别 。 在 方法 1 中 ， 我 们 改变 正则 表达 式 是 为 了 容许 normal 部 
分 和 special 部 分 之 后 出 现 空白 ， 但 是 这 里 不 容许 出 现 空白 。 所 以 虽然 这 个 例子 与 之 前 的 并 
非 完 全 相同 ， 但 也 属于 同一 类 ， 同 样 可 以 用 来 证 明 背 除 循环 的 技巧 的 强大 和 便捷 。 


iii 
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子 域名 的 例子 与 之 前 的 例子 有 两 大 区 别 : 
。 ”域名 的 开始 和 结束 没有 分 界 符 。 


。 PRAH normal 部 分 不 可 能 为 空 (也 就 是 说 两 个 点 号 不 能 紧 挨 在 一 起 ， 点 号 也 不 能 出 
现在 整个 域名 的 开头 或 结尾 )。 对 双 引 号 字符 串 来 说 ，normal 部 分 可 以 为 空 , 即使 按照 
我 们 的 假设 它们 不 太 应 该 为 空 。 所 以 我 们 需要 把 ‘~^\"] KAA. MPERA 
的 例子 不 能 进行 这 种 修改 ， 因 为 special 部 分 是 分 隔 符 ， 必 须 出 现 。 


观察 


Observations 


回 过 头 来 看 双 引 号 字符 串 的 例子 , RAA wana ono n 有 许多 优点 , 也 存在 
一 些 陷 阱 。 


陷阱: 


。 TRE 这 是 最 大 的 问题 ,原来 的 "" ([^\\"] IN\\.)*" 可 能 更 容易 一 眼看 懂 , 我 们 放弃 
了 可 读 性 来 追求 效率 。 


” ”可 维护 性 可 维护 性 可 能 更 复杂 ， 因 为 任何 改动 都 必须 保持 对 两 个 [^\\"] 相同 。 我 们 
牺牲 了 可 维护 性 来 追求 效率 。 


好 处 : 


。 RE 如 果 不 能 匹配 ， 或 是 采用 POSIX NFA， 这 个 正则 表达 式 不 会 进入 无 休止 匹配 。 
因为 进行 了 精心 地 调 校 ， 特 定 的 文本 只 能 以 唯一 的 方式 匹配 ， 如 果 文 本 不 能 匹配 ， 引 
擎 会 迅速 发 现 它 。 


。 “还 是 速度 正则 表达 式 “ 操 作 连 续 性 (flow)” 很 好 ， 这 也 是 “流畅 运转 的 正则 表达 式 ” 
(7277) 的 主题 。 我 对 传统 型 NFA 进行 了 检测 ， 消 除 循环 之 后 的 表达 式 总 是 比 之 前 
使 用 多 选 结构 的 表达 式 要 快 得 多 。 即 使 匹配 能 够 成 功 ， 不 会 进入 无 休止 匹配 状态 时 ， 
也 是 如 此 。 


使 用 固化 分 组 和 占有 优先 量词 


Using Atomic Grouping and Possessive Quantifiers 


表达 式 "(\\ .1[^\"]+)*") 之 所 以 会 进入 无 休止 匹配 的 状态 ， 问 题 在 于 ， 如 果 无 法 匹配 ， 
它 会 陷 人 徒劳 的 尝试 。 不 过 ,如果 存在 匹配 ， 就 能 很 快 结束 ， 因 为 [^\\ "1+; 能 够 匹配 目标 
字符 串 中 的 大 多 数字 符 (也 就 是 之 前 讨论 过 的 normal 部 分 )。 因 为 ![…]+), 通 常会 为 速度 优 
化 (=247)， 而 且 能 够 匹配 大 多 数字 符 ， 外 面 的 '(…) * ,量词 的 开销 因此 大 为 减少 。 


i 
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所 以 ,t+ 的 问题 就 在 于 ， 不 会 在 匹配 时 会 陷 人 徒劳 的 尝试 ， 在 我 们 知道 
毫 无 用 处 的 备用 状态 之 中 不 断 回潮 。 我 们 知道 这 些 状态 毫 无 价值 ， 因 为 他 们 只 是 检查 同样 
对 象 的 不 同 排列 (如果 abc 不 能 匹配 “foo”, ABZ ‘abc: RH ‘abe: (WR ‘abc, ‘abe: RF 
无 论 什么 形式 的 abe) 都 不 能 匹配 。 如 果 我 们 能 抛弃 这 些 状 态 ， 正 则 表达 式 就 能 迅速 报告 
匹配 失败 )。 


抛弃 (或 者 是 忽略 ) 这 些 状 态 的 方法 有 两 种 : 固化 分 组 (7139) 或 者 占有 优先 量词 (142)。 


在 我 们 着 手 消除 回溯 以 前 ， 我 希望 交换 多 选 分 支 的 顺序 ， 把 “"(\\.1[^\\"]+)*") 变 为 
(IWMI\\.)*"， 这 样 匹 配 “ 普 通 ” 文 本 的 元 素 就 出 现在 第 一 位 。 前 几 章 中 我 们 已 经 
数 次 提 到 过 ， 如 果 两 个 或 两 个 以 上 的 多 选 分 支 能 够 在 同一 位 置 匹配 ， 排 列 顺序 的 时 候 就 要 
小 心 ， 因 为 顺序 可 能 影响 到 匹配 的 结果 。 但 对 于 本 例 来 说 ， 不 同 多 选 分 支 匹 配 的 是 不 同 的 
文本 〈 某 个 多 选 分 支 在 一 处 能 够 匹配 ， 则 其 他 多 选 分 支 在 此 处 就 不 能 匹配 ) ， 从 正确 匹配 的 
角度 来 看 ， 顺 序 就 是 无 关 紧 要 的 ， 所 以 我 们 可 以 根据 清晰 或 效率 的 要 求 来 选择 顺序 。 


使 用 占有 优先 量词 避免 无 休止 匹配 


会 造成 无 休止 匹配 的 表达 式 “"((^\\"1+rIN\.)s 有 两 个 量词 。 我 们 可 以 把 其 中 一 个 改 为 占 
有 优先 量词 ， 或 者 两 个 都 改 。 这 两 者 有 区 别 吗 ? 因为 大 多 数 回溯 的 麻烦 源 自 '[…]+ 留 下 的 
状态 ， 所 以 把 它 改 成 占有 优先 是 我 的 第 一 想法 。 这 样 得 到 的 表达 式 ， 即 使 找 不 到 匹配 ， 速 
度 也 很 快 。 不 过 ， 把 外 面 的 “(…) *, 改 成 占有 优先 会 抛弃 括号 内 的 所 有 备 选 状态 ， 其 中 包括 
'[…]+1 和 多 选 结构 本 身 的 备 选 状态 ， 所 以 如 果 我 要 从 中 选取 一 个 的 话 ， 我 会 选取 后 者 。 


但 我 们 并 非 只 能 选择 一 个 ， 因 为 我 们 可 以 把 两 个 都 改 为 占有 优先 量词 。 具 体 哪 种 办 法 最 快 ， 
可 能 取决 于 占有 优先 量词 的 优化 情况 。 现 在 ， 只 有 Sun 的 Java regex package 支持 这 种 表示 
法 ， 所 以 我 的 测试 只 能 在 Java 中 进行 ， 并 且 发 现 某 些 情形 下 其 中 一 种 组 合 更 快 。 我 原本 期 
望 ， 使 用 两 个 占有 优先 量词 是 最 快 的 ， 所 以 这 些 结果 让 我 相信 ，Sun 的 优化 还 不 够 彻底 。 


使 用 固化 分 组 避免 无 休止 匹配 


如 果 要 对 “…"([^\\"]r+rlN\.)*" 使 用 固化 分 组 , 最 容易 想到 的 办 法 就 是 把 普通 括号 改 成 固化 
分 组 括号 : "(?>[^\\"J+lN\.)*i。 不 过 我 们 必须 知道 , 在 抛弃 状态 的 问题 上 , '(?>…1…)*) 
与 占有 优先 的 “(…1…) *+ ! 是 过 然 不 同 的 。 


if 
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euie tu ERRITAN FEMRA, 相反 , '(?>…1…) t 只 是 消除 多 选 结构 每 次 迄 代 时 
保留 的 状态 。 星 号 是 独立 于 固化 分 组 的 ， 所 以 不 受 影响 ， 这 个 表达 式 仍 然 会 保留 “ 跳 过 本 
轮 迭 代 ” 的 备用 状态 。 也 就 是 说 ， 回 调 中 的 状态 仍然 不 是 确定 的 最 终 状 态 。 我 们 希望 同时 
消除 外 面 量词 的 备用 状态 ， 所 以 要 把 外 面 的 括号 也 改 成 国 化 分 组 。 也 就 是 说 模拟 占有 优先 
peleo *+1 必 须 用 到 "(?>(…1…)*)， 。 

解决 无 休止 匹配 的 问题 时 ，(…1…)*+y 和 '(?>…1…)* 都 很 有 用 , 但 是 它们 在 抛弃 状态 的 选 
择 和 时 间 上 却 是 不 同 的 (更 多 的 差异 ， 请 参阅 173 页 )。 


简单 的 消除 循环 的 例子 


Short Unrolling Examples 


现在 我 们 大 概 了 解 了 消除 循环 的 思想 ， 来 看 看 书 中 曾经 出 现 过 的 几 个 例子 ， 想 想 该 如 何 消 
除 循环 。 


消除 “多 字符 ”引文 中 的 循环 
在 第 4 章 第 167 页 ， 我 们 看 到 这 个 例子 : 


<B> # 匹配 开头 的 <B> 
( # 现在 匹配 尽 可 能 多 的 … 
(?! </?B> ) # 如 果 不 是 <B> 也 不 是 </B> … 
. # … 任 何 字 符 都 没 问 题 
) * # (匹配 优先 量词 ) 
</B> # <ANNO> 直 到 结束 边界 
normal 部 分 是 [^<])， special 部 分 是 (?!</?B>)<j， 下 面 是 改进 的 版 本 
<B> # 匹配 开头 的 <B> 
(?> [*<]*) # 匹配 任意 数量 的 "normal"… 
(?> # 任意 数量 的 … 
(?! < /? B> ) # 如 果 不 是 <B> 也 不 是 </B> 
< # 匹配 "special" 
[“<]* # ”然后 继续 匹配 任意 数量 的 "normal”" 
# 
</B> E 最 后 匹配 结尾 的 </ 了 > 
这 里 固化 分 组 并 不 是 必须 的 ， 但 如 果 只 能 部 分 匹配 ， 使 用 固化 分 组 能 够 提高 速度 。 
消除 连续 行 匹 配 例子 中 的 循环 


连续 行 的 例子 出 现在 前 一 章 的 开头 (=186), 当时 使 用 的 表达 式 是 “\w+=([^\nN\JIN\.)wa 
看 起 来 这 很 适合 应 用 这 种 技巧 : 

”AMw+ = # 开头 的 文字 和 '=， 

# 现在 读 取 (并 且 捕 获 ) Å... 

( 


(?> ([*\n\\]* ) # “normal"* 
(2> \\. [ANNANT 3 * # ( "special" "“normal"*)* 


ti 
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与 上 一 个 例子 一 样 ， 固 化 分 组 不 是 必须 的 ， 但 它 能 让 引擎 更 快 地 报告 匹配 失败 。 


消除 CSV 正则 表达 式 中 的 循环 


第 5 章 用 了 很 长 的 篇 幅 讨论 CSV 的 处 理 ， 最 后 得 到 第 216 页 的 代码 : 


,ea ree 
(?:# 或 者 是 匹配 双 引 号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) ... 
“ # {起 始 双 引号 ) 
Ree TST he pe 
"” # {结束 双 引 号 ) 
| 
# 1... 或 者 是 引号 和 过 号 之 外 的 文本 . . 、 
ny Rated hae 
) 


当时 的 结论 是 ,最 好 在 开头 添加 AC, 这 样 就 能 避免 驱动 过 程 带 来 的 麻烦 ,并 生效 率 也 会 提 
高 。 现 在 我 们 知道 如 何 消除 循环 ， 就 可 以 此 技巧 来 看 看 如 何 应 用 这 个 例子 。 


用 来 匹配 微软 的 CSV 字符 串 的 正则 表达 式 是 "3?:[I^"11"")*， 它 看 起 来 很 不 错 。 其 实 ， 这 
个 表达 式 已 经 区 分 了 normal 和 special 部 分 :"[^"]; 和 和 "",。 下 面 我 们 把 这 个 表达 式 写 清楚 ， 
用 原来 的 Perl 代码 说 明 消 除 循环 的 过 程 : 


while ($line =~ m{ 
\G(?:*1,) 
(?: 
# 或 者 匹配 双 引 号 字段 (其 中 容许 出 现 连 在 一 起 的 成 对 双 引 号 ) ? 
# 起 始 双 引号 
( (?> [A] ) (?> "= [es] ye ) 
# 结束 双 引 号 
# .. .或 者 是 
| 
# 1... 或 者 是 引号 和 过 号 之 外 的 文本 . ，. 
(人 
) 


}gx) 
{ 
if (defined $2) { 
$field = $2; 
} else { 
Sfield = $1; 


$field =~ s/""/"/g; 
} 
print "($field)"; # 输出 字段 的 值 以 供 调试 
现在 处 理 SfielG.. . 
} 


如 其 他 的 例子 一 样 ， 固 化 分 组 不 是 必须 的 ， 但 可 以 提高 效率 。 


ll 
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消除 C 语言 注释 匹配 的 循环 


Unrolling C Comments 


现在 来 看 个 匹配 更 复杂 字符 串 时 消除 循环 的 例子 。 在 C 语言 中 ， 注 释 以 人 * 开 头 ，*/ 结 尾 ， 
可 以 有 多 行 ， 但 不 能 嵌 套 (C++, Java 和 C# 也 容许 这 种 形式 的 注释 )。 匹 配 此 类 注释 的 正 
则 表达 式 在 许多 情况 下 都 有 用 ， 例 如 构建 去 掉 注 释 的 过 滤 程 序 。 写 这 个 程序 时 我 首先 想到 
的 就 是 消除 循环 ， 而 这 个 技巧 现在 已 经 成 为 我 的 正则 表达 式 宝 库 中 的 重要 装备 。 


真 的 需要 消除 吗 


我 在 20 世纪 90 年 代 早期 就 开始 开发 本 节 讨 论 的 这 个 正则 表达 式 。 在 那 之 前 ， 人 们 认为 用 
正则 表达 式 匹 配 C 语言 的 注释 即使 不 是 不 可 能 ， 也 是 很 困难 的 事情 ， 所 以 一 些 可 行 的 办 法 
由 我 开发 出 来 之 后 ， 就 成 为 匹配 C 语言 注释 的 标准 方法 。 不 过 ， 在 Perl 引入 忽略 优先 量词 
之 后 ， 出 现 了 简单 得 多 的 办 法 : 使 用 能 匹配 所 有 字符 的 点 号 八 *.*?\*/h 


在 我 写 程序 的 时 候 忽略 优先 量词 还 设 有 出 现 ， 如 果 当 时 有 这 种 现成 的 特性 ， 就 不 用 费 这 么 
多 周折 了 。 不 过 ， 我 的 解决 办 法 仍然 是 有 效 的 ， 因 为 即使 在 首次 支持 忽略 优先 量词 的 那 一 
版 Perl 中 ， 使 用 消除 循环 技巧 的 程序 仍然 要 比 使 用 忽略 优先 量词 的 快 得 多 (我 做 了 许多 种 
测试 ， 有 时 快 S0%， 也 有 时 快 360%)。 


Ait, Perl 现在 综合 了 各 种 优化 措施 ， 形 势 就 颠倒 过 来 ， BER CEA Roe 
到 550%, PRUAFR BUTERA '/\*.*2\*/) ROCA C 语言 的 注释 。 


这 是 否 意味 着 ， 现 在 匹配 C 语言 注视 用 不 着 消除 循环 的 技巧 了 ? 如 果 引 擎 不 支持 忽略 优先 
量词 ， 消 除 循环 的 价值 就 能 体现 出 来 。 也 不 是 所 有 的 正则 引擎 都 能 综合 各 种 优化 : 在 我 测 
试 的 其 他 任何 语言 中 ， 消 除了 循环 的 程序 都 要 更 快 一 一 最 快 的 时 候 速度 相差 60 倍 ! 消除 循 
环 的 技巧 确实 很 有 用 ， 所 以 下 文 讲解 如 何 用 它 来 匹配 C 语言 注释 。 


因为 匹配 C 语言 注释 时 不 存在 双 引 号 字符 串 中 转 义 字符 \" 的 问题 ， 可 能 有 人 和 觉得 事情 会 比 
较 简 单 ， 但 问题 其 实 更 复杂 。 因 为 这 里 的 “结束 双 引 号 ”*/ 不 止 一 个 字符 。 直 接 用 
A\*[^*]*\*/1 可 能 看 起 来 没 问 题 ， 但 不 能 匹配 /**some comment here**/， 因 为 其 中 还 
有 “*" ， 而 这 是 必须 匹配 的 ， 所 以 我 们 需要 另外 的 办 法 。 
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换 更 清晰 的 表示 方法 


你 可 能 觉得 " 八 * [~*]*\*/ ,难以 阅读 , 即使 本 书 的 体例 已 经 尽量 做 到 容易 看 懂 。 但 不 幸 的 是 ， 
注释 部 分 的 边界 符 “* ”本身 就 是 正则 表达 式 的 元 字符 ， 所 以 得 使 用 反 斜 线 转 义 ， 结 果 正 则 
表达 式 看 起 来 让 人 头疼 。 为 了 看 得 更 清楚 ， 我 们 在 这 个 例子 中 使 用 /x…x/， 而 不 是 /*…*/。 
经 过 这 个 细微 的 改动 ,'/ 八 *[^*]*\*/j 变 成 了 更 容易 看 懂 的 /x[^x]*x/1。 这 个 表达 式 会 随 着 
我 们 的 讲解 变 得 越 来 越 复杂 ， 到 时 你 会 发 现 这 个 改动 的 价值 。 


直接 的 办 法 


在 第 5 章 (196)， 我 给 出 了 匹配 分 隔 符 之 内 文本 的 公式 : 
L. 匹配 起 始 分 隔 符 ， 

2. 匹配 正文 : 匹配 “ 除 结束 分 隔 符 之 外 的 任何 字符 ”， 

3. 匹配 结束 分 隔 符 。 


现在 我 们 的 程序 以 /x 和 x/ 作 为 开始 和 结束 分 隔 符 ， 它 似乎 很 符合 这 个 模式 。 难 处 在 于 匹配 
“ 除 结束 分 隔 符 之 外 的 任何 字符 ”。 如果 结束 分 隔 符 是 单个 字符 , 我 们 可 以 用 排除 型 字符 组 。 
但 字符 组 不 能 用 来 进行 多 字符 匹配 ， 不 过 如 果 能 使 用 否定 型 顺序 环视 ， 我 们 就 能 使 用 
“(?: (?!x/) .)*/。 这 就 是 ' 除 结束 分 隔 符 之 外 的 任何 字符 ,。 


于 是 我 们 得 到 /x(?:(?!x/) .)*x/1。 它 没有 问题 ， 但 速度 很 慢 (在 我 做 的 一 些 测试 中 ， 速 
度 要 比 下 面 的 表达 式 慢 几 百倍 )。 这 个 思路 很 有 用 ， 但 缺乏 实用 性 ， 因 为 几乎 所 有 支持 顺序 
环视 的 流派 都 支持 忽略 优先 量词 ， 所 以 效率 并 不 是 问题 ， 你 完全 可 以 用 /x.*?x/。 


那么 ， 顺 着 这 种 分 三 步 走 的 思路 ， 是 否 有 其 他 办 法 匹配 第 一 个 x/ 之 前 的 文本 ?能 想到 的 办 
法 有 两 个 。 之 一 是 把 x 作为 开始 分 隔 符 和 结束 分 隔 符 ， 也 就 是 说 ， 匹 配 除 x 之 外 的 任何 字 
符 ， 以 及 之 后 字符 不 为 斜 线 的 x。 这 样 ,“ 除 结束 分 隔 符 之 外 的 任何 字符 ”就 成 了 : 


© 除 x 之 外 的 任何 字符 : [^x]。 
。 ”之 后 字符 不 是 锋线 的 x: x/l 


这 样 得 到 和 ([^x] 1x[^/])* 来 匹配 主体 文本 , /x([^x]1x[^/])*x/1 来 匹配 整个 注释。 我 们 
会 发 现 这 条 路 行 不 通 。 
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另 一 种 办 法 是 ， 把 紧 跟 在 x 之 后 斜 线 当 作 结 束 分 隔 符 。 这 样 “ 除 结束 分 隔 符 之 外 的 任何 字 
符 ” 就 成 了 : 


。 _ 除 斜 线 外 的 任何 字符 :“[^/])。 

° RARE x ZARR: x 

于 是 用 (5/115^x]/)* DORE ICA, 7010/1 10x) /) 8x /s DERE TERE. 
不 幸 的 是 ， 这 同样 是 死路 。 


如 果 用 /yx([^x]l lx[^/]1)*x/ 来 匹配 /xx*foo'xx/", {IE ‘foot ZR, 第 一 个 x 由 ieee 
匹配 ， 这 当然 没有 问题 。 但 是 之 后 , “17/4 URE xg/ ， 而 这 个 x 应 该 是 标记 注释 的 结束 。 
于 是 继续 下 一 轮 和 迭代 ，[^x] 匹配 斜 线 ， 结 果 会 匹配 x/ 之 后 的 文本 。 


UVx(E*/1Texly)*x 站 也 不 能 匹配 “/x/foo'yx/ (整个 注释 都 应 该 匹配 ) 。 如 果 注 释 结尾 
后 紧 跟 斜 线 ， 表 达 式 匹配 的 内 容 会 超过 注释 的 结束 分 隔 符 (这 也 是 其 他 解法 的 问题 )。 而 在 
本 例 中 ， 回 潮 可 能 有 些 令 人 迷惑 ， 所 以 读者 最 好 和 弄 明白 /x([*7y]1I*xl7)*x/i Aytt 2. AE Ue 
Ac 


Years = days /x divide x//365, /x assume non-leap year x/ 
i eee 


(可 以 在 空余 时 间 好 好 想 想 这 个 问题 。) 
怎么 办 


让 我 们 来 修正 这 些 表达 式 。 在 第 一 种 情况 下 ， 因 为 疏忽 ，x[^/] 匹配 了 结尾 的 …xx/。 如 果 
我 们 用 /x([^x] 1x#[^/)*x/1。 我 们 认为 ， 添 加 加 号 之 后 ,x+ (0/1 匹配 以 非 斜 线 字符 结 
尾 的 一 连 串 x。 确 实 它 能 够 这 样 匹 配 ， 但 因为 回 滴 “ 斜 线 之 外 的 任意 字符 ”仍然 可 以 是 x, 
首先 , 匹配 优先 的 x+ 匹配 我 们 需要 的 额外 的 x, 但 是 如 果 全 局 匹配 需要 ,回潮 会 逐个 释放 
它们 。 所 以 它 仍 然 会 匹配 过 多 内 容 : 


/XX A xx/ foo() /xx B xx/ 
re OS ee ee 


要 解决 这 个 问题 ， 还 得 回 到 之 前 介绍 的 办 法 :准确 表达 我 们 希望 表达 的 意思 。 如 果 我 们 说 
的 “ 紧 跟 字 符 不 是 斜 线 的 一 些 x” 其 实 就 是 除 x 之 外 的 非 斜 线 字符 ， 就 应 该 用 x+ 1^% 
它 不 会 匹配 “…xxx/"， 一 连 串 x 中 表示 注释 结束 的 那个 x。 事 实 上 ， 它 还 有 个 问题 ， 就 是 
无 法 匹配 注释 结束 之 前 的 任意 多 个 x， 所 以 会 在 “… xxx/” 停 下 来 。 因 为 我 们 预计 结束 分 
隔 符 前 只 有 一 个 x， 所 以 必须 加 入 e 处 理 这 种 情况 。 


于 是 得 到 和 /x((^x] 1x+[^/x])*x+/}， 匹 配 最 终 的 注释 。 


E 
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在 自然 语言 和 正则 表达 式 之 间 翻 译 


第 273 页 讨论 用 来 匹配 C 注释 “ 除 结束 分 隔 桂 之 外 的 任何 字符 ”的 两 种 方法 时 ， 我 提 
到 两 种 办 法 : 

x， 之 后 的 字符 不 是 针线 : x[^/]， 

针线 ， 之 前 的 字符 不 是 x: [^x] 


这 种 做 法 并 不 正式 自然 语言 的 描述 与 正则 表达 式 是 非常 不 同 的 ， 你 发 现 了 吗 ? 
要 看 这 两 者 的 差别 ， 想 象 第 一 个 表达 式 匹 配 字 和 罕 囊 ‘regex HAAL, KEN x 之 后 
RAH, 但 它 不 能 被 'x[^/]1 匹 配 。 字符 组 必须 匹配 一 个 字符 ,尽管 这 个 字符 不 能 是 


针线 ， 但 它 必须 存在 ， 可 “regex” 中 的 x 之 后 没有 任何 字符 。 第 二 个 表达 式 的 情况 
与 此 类 似 。 当 时 ， 我 们 需要 的 正 是 符合 这 两 个 要 求 的 表达 式 ， 所 以 自然 语言 的 表述 是 
错误 的 。 

如 果 能 使 用 顺序 环视 ,“X,， 之 后 的 字符 不 是 针线 ”可 以 直接 写 做 x?!) RRE, 
就 可 以 使 用 'x([^/]1$)1。 它 仍然 需要 匹配 x 之 后 的 字符 ,但 也 可 以 匹配 字符 事 的 结尾 。 
如 果 能 够 使 用 逆序 环视 ,“ 斜 线 ， 之 前 的 字符 不 是 x” 就 可 以 表示 为 '(?<!1x) /1。 如 果 
不 能 ， 就 需要 使 用 (^1[^x]) /1。 


在 这 个 例子 中 ， 我 们 没有 使 用 上 述 的 任何 一 种 办 法 ， 但 知道 有 这 些 办 法 并 不 是 坏事 。 





这 看 起 来 很 迷惑 ， 对 吗 ? 真正 的 表达 式 (用 * 取 代 x) BRE VCH IV Et Ne, 
这 样 更 复杂 了 ， 更 不 容易 看 懂 ， 所 以 在 理解 复杂 的 正则 表达 式 时 ， 一 定 要 保持 清醒 的 思维 。 


消除 C 语言 注释 的 循环 


为 了 提高 表达 式 的 效率 , 我 们 必须 消除 这 个 表达 式 的 循环 。 下 一 页 的 表 6-3 给 出 了 我 们 能 够 
“消除 循环 ”的 表达 式 。 


和 子 域 名 的 例子 一 样 ，normal*, 必须 匹配 至 少 一 个 字符 。 子 域名 的 例子 中 是 因为 normal 部 
分 不 能 为 空 。 本 例 中 必须 的 结束 分 隔 符 包含 两 个 字符 。 我 们 确信 ， 任 何以 结束 分 隔 符 的 第 
一 个 字符 结尾 的 任何 normal 序列 ， 只 有 在 紧 跟 字符 不 能 组 成 结束 分 隔 符 的 情况 下 ， 才 会 把 
控制 权 交 给 special 部 分 。 


tH 
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R 6-3: 消除 C 语言 注释 的 循环 


‘opening normal* (special normal*)* closing) 
| 

opening 

special 


所 以 ， 按 照 通 用 的 消除 套路 ， 我 们 得 到 |: 
‘Jx[^x]*x+( PAR) [^x] *x+)*/) 


请 注意 ,标注 的 位 置 。 正 则 引擎 可 能 有 两 种 办 法 到 达 此 处 (267 页 的 表达 式 也 是 如 此 )。 第 一 
个 是 在 开头 的 /x[^x]*x+! 匹 配 之 后 直接 前 进 到 此 处 ， 第 二 是 在 (…) * 循 环 的 某 一 轮 中 。 无 
论 哪 种 情况 ， 只 要 到 达 此 处 ， 我 们 就 知道 已 经 匹配 了 x， 到达 关 键 位 置 (pivotal point), «J 
已 经 进入 了 注释 的 结尾 分 隔 符 。 如 果 下 面 的 字符 是 斜 线 , 则 匹配 完成 。 如 果 是 其 他 字符 ( 当 
然 不 是 x)， 我 们 知道 之 前 的 判断 是 错误 的 ， 然 后 回 到 normal 部 分 ， 等 待 下 一 个 x。 找 到 之 
后 我 们 再 一 次 回 到 标记 位 置 。 





回 到 现实 
/x[^x]*x+([^/x] [^x]*x+)*/1 还 不 能 直接 拿 来 用 。 首 先 ， 注 释 是 /*…*/ 而 不 是 /x…x/。 
当然 ， 我 们 可 以 很 容易 地 把 每 个 x 替换 为 x (字符 组 中 的 x 替换 为 *): 

Tj 人] w\ 二 +([ 和 /二 ] [入 二 ] *\ te Oy 


实际 情况 中 ， 注 释 通 常会 包括 多 行 。 如 果 匹 配 的 注释 包括 多 行 ， 这 个 表达 式 也 应 该 能 够 应 
付 。 如 果 是 严格 以 行为 处 理 单位 的 工具 ， 例 如 egrep， 当 然 没 办 法 用 一 个 正则 表达 式 匹 配 所 
”有 的 行 。 对 本 书 中 提 到 的 大 多 数 工 具 ， 我 们 的 确 可 以 用 这 个 表达 式 来 匹配 多 行 ， 删 除 它们 。 


在 实际 中 ,会 遇 到 许多 问题 。 这 个 正则 表达 式 能 够 识别 C 的 注释 ， 但 不 能 识别 C 语法 的 其 
他 重要 方面 。 例 如 ， 划 线 的 部 分 尽管 不 是 注释 ， 也 能 够 匹配 : 


const char *cetart = "/**"; *cend. = **/* 
(te et 


我 们 会 在 下 一 节 接 着 讨论 这 个 例子 。 
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The Freeflowing Regex 
我 们 花 了 不 少时 间 来 构建 匹配 C 的 注释 的 正则 表达 式 ， 但 是 没有 考虑 如 何 避 免 字 符 串 中 的 
错误 匹配 。 使 用 Perl 的 话 ， 你 可 能 会 想到 用 下 面 的 程序 过 滤 注 释 : 

Sprog =~ B{/A\*[^*]*\*+ (22 [~^/*] [^*]*\*+)*/}{}g; # 去 挤 C 语言 注释 (但 有 错误 !) 


表达 式 中 ， 变 量 $prog 保存 的 文本 会 被 删除 (也 就 是 ， 被 空 文本 替换 掉 )。 问 题 在 于 ， 如 果 
在 字符 串 内 部 找到 注释 的 起 始 标记 ， 正 则 表达 式 的 匹配 也 不 会 停止 ， 比 如 这 段 C 代码 : 


char *CommentStart = "/*"; /* start of comment */ 
char *CommentEnd = "*/"; /* end of comment */ 
WE CEE 


这 里 ， 下 画 线 标注 的 部 分 是 正则 表达 式 的 匹配 结果 ， 但 是 粗 体 标注 的 部 分 才 是 我 们 期 望 的 。 
引擎 寻找 匹配 时 会 在 目标 字符 串 的 每 个 位 置 开始 尝试 匹配 表达 式 。 因 为 这 种 尝试 只 有 在 注 
释 开 始 的 地 方 (或 者 是 看 起 来 有 可 能 开始 的 地 方 ) 成 功 ， 所 以 在 大 部 分 位 置 都 无 法 匹配 ， 
传动 装置 的 驱动 过 程 继 续 向 前 ， 进 入 双 引 号 字符 串 ， 其 内 容 似乎 是 注释 的 开始 。 最 好 是 能 
够 告诉 正则 引擎 ， 遇 见 双 引 号 字符 串 时 是 应 该 尝试 匹配 还 是 直接 跳 过 。 当 然 ， 我 们 确实 能 
做 到 这 一 点 。 


A Helping Hand to Guide the Match 

看 下 面 的 程序 ; 
SCOMMENT = gr{/\*(**]*\*+(2:(*/*] (**] *\*4) */}; # 匹配 注释 
SDOUBLE = gr{"(?:\\.1[*\\"])*"}; # 匹配 双 引 号 字符 事 


Stext =~ s/SDOUBLE|SCOMMENT//g; 


这 里 出 现 了 两 件 新 事物 。 其 中 之 一 是 表达 式 '$SpoUBLE1sScoMMENTI， 它 由 两 个 变量 组 成 ， 都 
使 用 了 Perl 特有 的 ar/…/ 正 则 表达 式 “ 双 引号 字符 串 ” 操 作 符 。 我 们 曾 在 第 3 章 仔细 讨论 
$ (7101), 如 果 用 字符 串 表 示 正 则 表达 式 , 使 用 字符 串 的 时 候 必 须 格 外 小 心 。Perl 提供 的 
qr/…/ 运 算 符 解决 了 这 个 问题 ， 它 会 把 操作 对 象 (operand) 视 为 正则 表达 式 ， 但 不 会 实际 
应 用 它 。 我 们 在 第 2 章 (776) 已 经 看 到 ， 这 样 非常 方便 。 与 m/…/ 和 s/…/…/ 一 样 ， 我 
们 可 以 自己 选择 分 隔 符 (71)， 上 面 使 用 的 是 花 括号 。 


另 一 点 是 通过 用 SpoUBLE 来 匹配 双 引 号 字符 串 。 传 动 装置 驱动 到 spoUuBLE 能 匹配 的 位 置 时 ， 
会 一 次 性 匹配 整个 双 引 号 字符 串 。 这 里 使 用 多 选 分 支 完全 没有 问题 ， 因 为 二 者 之 间 并 没有 
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重 登 。 如 果 我 们 从 左 向 右 扫描 这 个 正则 表达 式 就 会 发 现 ， 应 用 到 字符 串 时 ， 存 在 三 种 可 能 : 
。 ”注释 部 分 能 够 匹配 ， 于 是 一 次 性 匹配 注释 部 分 ， 直 接 到 达 注 释 的 末尾 ， 或 者 … 

。 “ 双 引 号 字符 串 部 分 能 够 匹配 , 于 是 一 次 性 匹配 双 引 号 字符 串 , 直接 到 达 其 结尾 , 或 者 … 
。 ”上 面 两 者 都 不 能 匹配 ， 本 轮 尝 试 失败 。 启 动 驱动 过 程 ， 跳 过 一 个 字符 。 


这 样 ， 正 则 表达 式 永远 不 会 从 双 引 号 字符 串 或 者 注释 内 部 开始 尝试 ， 这 就 是 成 功 的 关键 。 
实际 上 ， 到 目前 为 止 还 不 够 ， 因 为 这 个 表达 式 在 删除 注释 的 同时 也 会 删除 双 引 号 字符 串 ， 
不 过 我 们 只 需要 再 修改 一 小 点 就 可 以 了 。 


SCOMMENT = qr{/\*[**}*\*4(2: [~/*] [~*]*\*+)*/}; # 匹配 注释 
SDOUBLE = ar{"(2:\\.1(*\\")])*"}; # 匹配 双 引 号 字 术 囊 
Stext =~ 8/($DOUBLE) | $COMMENT/$1/g; 

ÙU u LJ 


。 设置 了 捕获 型 括号 ， 如 果 能 够 匹配 双 引 号 字符 串 对 应 的 多 选 分 支 ， 则 $1 会 保存 对 应 的 
内 容 。 如 果 匹 配 通过 注释 多 选 分 支 ，$1 为 空 。 


。 # replacement 的 值 设置 为 $S1。 结 果 就 是 ,如 果 双 引号 字符 串 匹 配 了 ，replacement 就 等 
于 双 引 号 字符 串 一 一 并 没有 发 生 删 除 操作 ， 替 换 不 会 进行 任何 修改 (不 过 存在 伴随 效 
应 ， 即 一 次 性 匹配 这 个 双 引 号 字符 串 ， 直 接 到 达 其 结尾 ， 这 就 是 把 它 放 在 多 选 结 构 首 
位 的 原因 )。 另 一 方面 ， 如 果 匹 配 注释 的 多 选 分 支 能 够 匹配 ，$1 为 空 ， 所 以 会 按照 期 
望 删除 注释 ( 注 8)。 





最 后 我 们 还 必须 小 心 对 付 单 引 号 的 C 常量 ， 例 如 ' \t'。 这 很 容易 一 一 只 需要 在 括号 内 添加 
另外 一 个 多 选 分 支 。 如 果 我 们 希望 去 掉 C++、Java、C# 的 / /的 注释 ， 就 可 以 把 //[^\n]*， 
作为 第 四 个 多 选 分 支 ， 列 在 括号 外 。 


SCOMMENT = qr{/\*(**] *\*4+(2?:[7/*] [^*]*\*+)*/}; # 匹配 注释 


SCOMMENT2 = gr{//[*\n]*}; # 匹配 C++ // 注释 
SDOUBLE = gr{"(?:\\.1[*\\"))*"}; # 匹配 双 引 号 字符 事 
SSINGLE = gr{'(?:\\.1(*'\\])*'}; # 匹配 单 引号 字符 事 


$text =~ 8B/(SDOUBLE1SSINGLE) | S$COMMENT | S$COMMENT2/$1/g; 
Ne Nh 


注 8: 在 Perl 中 ， 如 果 $1 在 匹配 中 不 能 满足 ， 则 会 获得 一 个 特殊 的 “没有 值 ”的 值 “undef”。 
用 作 replacement 时 ，undef 就 会 被 当 作 空 字 符 事 ， 程序 运行 的 结果 如 我 们 所 愿 。 不 过 如 果 
打开 了 Perl 的 警报 功能 (每 个 优秀 的 程序 员 都 应 该 这 么 做 ) ， 这 样 使 用 undef 会 报警 。 为 
避免 这 种 情况 ， 应 该 在 正则 表达 式 之 前 使 用 蝙 译 指示 “no warnings”"， 或 者 使 用 特殊 的 
Perl 替换 符 : 

$text =~ s/(SDOUBLE) | SCOMMENT/defined($1)?$1: ""/ge; 
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基本 原理 很 好 展 : 引擎 检查 文本 ， 迅 速 捕获 《如 果 合 适 ， 则 是 删除 ) 这 些 特殊 结果 。 在 我 
的 老 机 器 (配置 大 概 停留 在 1997 年 的 水 平 ) E, Perl 脚本 在 16.4 种 的 时 间 内 去 掉 了 16MB, 
500 000 行 的 测试 文件 中 的 注释 。 这 已 经 很 快 了 ， 不 过 我 们 仍然 需要 提高 速度 。 


引导 良好 的 正则 表达 式 速度 很 快 


A Well-Guided Regex is a Fast Regex 


暂停 一 会 儿 ， 我 们 能 够 直接 控制 这 个 正则 引擎 的 运转 ， 进 一 步 提 高 匹配 速度 。 来 考虑 注释 
和 字符 串 之 间 的 普通 C 代码 。 在 每 个 位 置 ， 正 则 引擎 都 必须 尝试 四 个 多 选 分 支 ， 才 能 确认 
是 否 能 匹配 ， 只 有 四 个 多 选 分 支 都 匹配 失败 ， 它 才 会 前 进 到 下 一 个 位 置 ， 这 些 复杂 工作 其 
实 是 不 必要 的 。 


我 们 知道 ， 如 果 其 中 任何 一 个 多 选 分 支 有 机 会 匹配 ， 开 头 的 字符 都 必须 是 斜 线 、 单 引号 或 
是 双 引 号 。 这 些 字符 并 不 能 保证 能 够 匹配 ， 但 是 不 满足 这 些 条 件 绝对 不 能 匹配 。 所 以 ， 与 
其 让 引擎 缓慢 而 痛苦 地 认识 到 这 一 点 ， 不 如 把 [^…"/], 作 为 多 选 分 支 ， 直 接 告诉 引擎 。 实 
际 上 ， 同 一 行 中 任何 数量 的 此 类 字符 都 能 归 为 一 个 单元 ， 所 以 我 们 使 用 +. WRR 
记得 无 休止 匹配 ， 可 能 会 为 添加 的 加 号 担心 。 确 实 ， 如 果 在 某 种 (…)* 循 环 中 ， 它 可 能 是 很 
大 的 问题 ， 但 是 在 这 个 例子 中 ， 它 完全 没有 问题 (之 后 没有 元 素 强 迫 它 回 湖 ) ， 所 以 ， 添 加 : 


SOTHER = qr{[*"'/]}; E 可 能 作为 某 个 多 选 结构 开头 的 字 桂 


noes 


$text =~ 8/ (S$DOUBLE|SSINGLE|SOTHER+) |$COMMENT| $COMMENT2/$1/g; 
A 


出 于 某 些 我 们 即将 要 看 到 的 原因 , 我 把 加 号 量词 放 在 SorHER 之 后 , 而 不 是 SorHER 的 内 容 之 
中 。 


我 重新 进行 了 性 能 测试 ， 出 乎 意料 的 是 ， 这 样 可 以 减少 75% 的 时 间 。 通 过 改进 ， 这 个 表达 
式 节 省 了 频繁 尝试 所 有 多 选 分 支 的 大 部 分 时 间 。 仍 然 有 些 情 况 ， 所 有 多 选 分 支 都 不 能 匹配 
(例如 “c,/3.14")， 此 时 ， 我 们 只 能 接受 驱动 过 程 。 


不 过 ， 事 情 还 没有 结束 ， 我 们 仍然 可 以 让 表达 式 更 快 : 


。 ”在 大 多 数 情况 下 ， 最 常用 的 多 选 分支 可 能 是 SoTHER+:， 所 以 我 们 把 它 排 在 第 一 位 。 
POSIX NFA 没有 这 个 问题 ， 因 为 它 总 会 检查 所 有 的 多 选 分 支 ， 但 是 对 于 传统 型 NFA， 
它 只 要 找到 匹配 就 会 停止 ， 为 什么 不 把 最 可 能 出 现 的 多 选 分 支 放 在 第 一 位 呢 ? 


if 
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© ”一 个 引用 字符 串 匹配 之 后 ， 在 其 他 字符 串 和 注释 匹配 之 前 ， 很 可 能 出 现 的 就 是 SOTYHER 
的 匹配 。 若 在 每 个 元 素 之 后 都 添加 '$oTHER*!， 就 能 够 告诉 引擎 下 面 必须 匹配 SOTHER， 
而 不 用 马上 进入 下 一 轮 /g 循环 。 


这 与 消除 循环 的 技巧 是 很 相似 的 ， 此 技巧 之 所 以 能 提高 速度 ， 是 因为 它 主导 了 正则 引 
擎 的 匹配 。 这 里 我 们 使 用 了 关于 全 局 匹配 的 知识 来 进行 局 部 优化 ， 给 引擎 提供 快速 运 
转 必须 的 条 件 。 


非常 重要 是 , '$oTHER*, 是 加 在 每 个 匹配 引用 字符 串 的 子 表达 式 之 后 的 ， 而 之 前 的 
SOTHER ( 排 在 多 选 结构 最 前 面 的 ) 必须 用 加 号 量词 。 如 果 你 不 清楚 原因 ， 请 考虑 下 面 
的 情况 : 添加 的 是 SoTHER+ ， 而 某 行 中 有 两 个 连 在 一 起 的 双 引 号 字符 种 。 同 样 ， 如 果 
开头 的 soTHER 使 用 星 号 量词 ， 则 任何 情况 都 能 匹配 。 


最 终 得 到 : 


' (SOTHER+ | $SDOUBLESOTHER* | $SINGLESOTHER*) | $COMMENT | SCOMMENT2 
这 个 表达 式 能 把 时 间 再 减少 5%。 


回 过 头 来 想 想 最 后 两 个 改动 。 如 果 每 个 添加 的 SoTHER* 匹 配 了 过 多 的 内 容 ， 开 头 的 SoTHER+ 
(我 们 将 其 作为 第 一 个 多 选 分 支 ) 只 有 两 种 情况 下 能 够 匹配 : 1) 它 匹 配 的 文本 在 整个 s/… 
/…/g 的 开头 ， 此 时 还 轮 不 到 引用 字符 串 的 匹配 ; 2) 在 任意 一 段 注释 之 后 。 


你 可 能 会 想 “ 从 第 二 点 考虑 ， 我 们 不 妨 在 注释 后 添加 $oTHER+”。 这 很 不 错 ， 只 是 我 们 希望 
用 第 一 对 插 号 内 的 表达 式 匹 配 所 有 希望 保留 的 文本 一 一 不 要 把 孩子 连 洗澡 水 一 起 倒 掉 。 


那么 ， 如果 $OTHER+ 出 现在 注释 之 后 ,我 们 是 否 需 要 把 它 放 在 开头 呢 ? 我 觉得 , 这 取决 于 所 
应 用 的 数据 一 一 如 果 注 释 比 引 用 字符 串 更 多 ， 答 案 就 是 肯定 的 ， 把 它 放 在 第 一 位 有 意义 。 
否则 ， 我 就 会 把 它 放 后 面 。 从 测试 数据 来 看 ， 把 它 放 在 前 面 的 效果 更 好 。 排 在 后 面 大 约会 
损失 最 后 的 修改 一 半 的 效率 。 
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ry 
cL 
Wrapup 


事情 还 设 有 结束 。 不 要 忘记 ， 每 个 匹配 引号 字符 串 的 子 表达 式 都 应 该 消除 循环 ， 本 章 已 经 
花 了 很 长 的 篇 幅 讲解 这 个 问题 。 所 以 ， 最 后 我 们 要 把 这 两 个 子 表达 式 替 换 为 : 

SDOUBLE = qr{"[^\\"]*(2:\\. [^\\"]*)*")}); 

SSINGLE = 人 
这 样 修改 节省 了 15 有 的 时 间 。 这 些 细小 的 修改 把 匹配 的 时 间 从 16.4 秒 缩短 到 2.3 PH, HEF 
T 7%. 


最 后 的 修改 还 说 明 ， 用 变量 来 构建 正则 表达 式 多 么 方便 。$DOUBLE 可 以 作为 单独 的 元 素 独 
立 出 来 ， 可 以 改变 ， 而 不 需要 修改 整个 正则 表达 式 。 虽 然 还 会 存在 一 些 整体 性 问题 (包括 
捕获 文本 括号 的 计数 )， 但 这 个 技巧 确实 很 方便 。 


这 种 便利 是 由 Perl 的 sr/…/ 操 作 符 提供 的 ， 它 表示 与 正则 表达 式 相关 的 “字符 串 "。 其 他 
语言 没有 提供 相同 的 功能 ， 但 是 大 多 数 语言 提供 了 便于 构建 正则 表达 式 的 字符 串 。 请 参见 
101 页 的 “作为 正则 表达 式 的 字符 串 ”。 


下 面 是 原始 的 正则 表达 式 ， 看 到 它 ， 你 肯定 会 觉得 上 面 的 办 法 非常 方便 。 为 了 便于 印刷 ， 
我 把 它 分 为 两 行 : 


人 
A dd i ed a r Sl eh i fad NAAU] 


总 结 :开动 你 的 大 脑 


In Summary: Think! 


在 本 章 的 结尾 讲 个 故事 ， 我 希望 读者 能 够 明白 ， 在 NFA 中 使 用 正则 表达 式 时 ， 稍 微 动 动脑 
筋 能 带 来 多 大 的 收益 。 在 使 用 GNU Emacs 时 ， 我 希望 用 一 个 正则 表达 式 来 找 出 某 种 类 型 的 
缩写 ， 例 如 “dont  、“Tm” 和 “we'l ”之 类 ， 同 时 必须 忽略 与 单词 邻接 的 单 引 号 。 我 想 用 
<\w+1 来 匹配 单词 ， 然 后 是 …( [tdam] 1rel111ve);。 这 办 法 没有 问题 ， 但 是 我 意识 到 ， 使 
用 、\<\w+, 是 思春 的 ， 因 为 这 里 只 用 到 \w。 你 看 到 了 ， 如 果 撤 号 之 前 就 是 一 个 \w，\w+ 显 然 
也 能 够 匹配 ， 所 以 这 个 正则 表达 式 检查 并 没有 增加 新 的 信息 ， 除 非 我 希望 得 到 匹配 的 文本 
(在 这 里 并 不 需要 , 我 们 只 需要 找到 这 个 位 置 ) 。 单独 使 用 \w 的 正则 表达 式 的 速度 是 原来 的 
10 倍 。 


正 因 如 此 ， 一 点 点 的 思考 就 可 以 带 来 巨大 的 收获 。 我 希望 本 章 能 够 引发 你 的 这 点 思考 。 
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第 章 


Perl 


Perl 


Perl 在 本 书 中 的 分 量 很 重 ， 这 样 安排 有 充分 的 理由 。Perl 很 流行 ， 提 供 的 正则 表达 式 特性 很 
丰富 , 容易 下 载 到 , 也 很 容易 入 门 , 而且 在 Windows, Unix 和 Mac 等 各 种 平台 上 都 有 提供 。 


Perl 的 某 些 程序 结构 看 上 去 类 似 C 和 其 他 传统 编程 语言 , 但 也 只 是 看 上 去 像 而 已 。 Perl 解决 
问题 的 方式 一 一 Perl 之 道 (The Perl Way) 一 一 是 不 同 于 传统 语言 的 。Perl 程序 的 设计 通常 
使 用 传统 的 结构 化 和 面向 对 象 的 概念 ， 但 是 数据 处 理 通 常 严重 依赖 正则 表达 式 。 我 认为 完 
全 可 以 这 么 说 : EMSS Epa RS eT eM. 无 论 这 个 程序 是 100 000 行 ， 


还 是 一 行 : in ay 4 A 
% perl -pi -e ‘st{ (friard. Mee. "%.0fC", ($1-32) *5/9}eg’ *.txt 


ae ee 
过 个 程序 检 查 所 有 的 SE, W PRR (PR 和 2 开关 的 


例子 吗 )。 
本 章 内 容 


本 章 讲解 Perl penatan 

的 运算 符 。 本 章 从 基础 开始 
果 你 看 过 第 2, BARE 
会 费 工夫 来 讲解 语 
助 ， 或 者 O'Reilly) Progranthing Pe 










BERAS, MEHENA 
者 对 Perl 有 基本 的 理解 (如 
: & 有 详细 ve 骨节 ， 我 会 一 笔 带 过 ， 也 不 
wy eA Pen 的 文档 会 很 有 


ig 1: 本 书 涵盖 Perl Version 5.8.5, 
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即使 你 目前 对 Perl 还 不 够 于 解 也 在 要 紧 , 重 要 的 是 委 有 进一步 学 习 的 欲望 。 从 任何 方面 来 
说 ， 阅 读本 章 都 不 是 件 轻松 的 事情 。 我 的 目的 不 是 田 读 者 大 省 ， 而 是 教 给 读者 其 他 Perl 的 
书 中 没 提 供 的 有 用 知识 ;为 了 保持 本 章 内 容 的 整体 性 和 连贯 性 ， 我 不 会 忽略 一 些 重要 的 细 
节 。 某 些 问 题 很 复杂 ， 细 闻 很 多 ， 如 果 不 能 马上 理解 也 不 必 担 心 。 我 推荐 读者 第 一 遍 阅 读 
时 只 要 了 解 全 面 的 图 景 ,需要 的 时 候 再 返 过 来 查阅 。 


下 面 列 出 了 本 章 的 结构 作为 指导 : 


© “Perl 的 正则 流派 ”( 了 286) 考察 了 Perl 的 正则 表达 式 提供 的 丰富 的 元 字符 ， 以 及 正 
则 文字 提供 的 附加 特性 。 


° “正则 相关 的 Perl 教义 (Perlism)” (7293) 考察 了 在 Perl 中 使 用 正则 表达 式 的 一 些 
重要 问题 。 详 细 介 绍 了 “动态 作用 域 (dynamic scoping)” 和 “表达 式 应 用 场合 (expression 
context)”， 并 解释 了 它们 与 正则 表达 式 之 间 的 紧密 联系 。 


。 ”正则 表达 式 必 须 与 应 用 方式 结合 起 来 才 有 价值 ， 所 以 下 面 各 节 讲 解 了 Perl 中 神奇 的 正 
则 表达 式 控制 结构 : 


qr/…/ 运 算 符 和 Regex 对 象 (7303) 
Match jz BFF (7306) 

Substitution 运算 符 (7318) 

Split 运算 符 (7321) 


e “HH Pel HEARE (7326) 介绍 了 Perl 独 具 的 正则 改良 功能 ， 包 括 在 正则 表达 
式 的 应 用 过 程 中 执行 任意 Perl 代码 的 功能 。 


e “Perl 的 效率 问题 ”《=347) 详细 讲解 了 每 个 Perl 程序 员 关 注 的 问题 。Perl 使 用 传统 
型 NFA 引擎 ， 所 以 我 们 可 以 充分 利用 第 6 章 介 绍 的 各 种 技巧 。 当 然 , 还 有 一 些 专属 于 
Perl 的 问题 会 强烈 地 影响 到 Perl 应 用 正则 表达 式 的 方式 和 速度 。 这 些 都 会 有 所 涉及 。 


前 几 音 出 现 的 Perl 
本 书 的 大 部 分 内 容 中 都 出 现 过 Perl: 
。 第 2 章 包括 Perl 的 入 门 知识 ， 给 了 许多 例子 。 


。 第 3 章 介绍 了 Per 的 历史 (788), H Pel 语言 介绍 了 许多 应 用 正则 表达 式 的 问题 ， 
例如 字符 编码 (包括 Unicode 105)、 匹 配 模式 (110)， 以 及 元 字符 (7113), 
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。 第 4 章 解密 了 Perl 使 用 的 传统 型 NFA 引擎 。 对 Perl 用 户 来 说 这 一 章 非 常 重要 。 


。 第 5 章 承接 第 4 章 , 包含 许多 讨论 过 的 例子 。 其 中 许多 是 以 Perl 给 出 的 ,即使 有 些 例 
子 不 是 以 Perl 给 出 的 ， 它 们 的 原理 也 适用 于 Perl。 


。 第 6 章 对 效率 感 兴 趣 的 Perl 程序 员 应 该 仔细 阅读 。 


为 了 照顾 不 熟悉 Perl 的 读者 ， 前 几 章 我 都 简化 了 Perl 的 例子 ， 使 用 容易 看 懂 的 伪 码 。 本 章 
我 会 使 用 Perl 风格 的 代码 来 举例 。 


作为 语言 组 件 的 正则 表达 式 


Regular Expressions as a Language Component 


Perl a 5| ATER MRE ZS RE. 正则 表达 式 在 语言 之 中 支持 完美 地 内 建 。Perl 没有 提供 
独立 的 正则 表达 式 应 用 函数 ， 它 的 正则 表达 式 的 运算 符 ， 包 含 在 构成 语言 的 其 他 丰富 的 运 
算 符 和 结构 之 中 。 


Perl 具有 强大 的 运用 正则 表达 式 的 能 力 ， 人 们 可 能 认为 ， 这 需要 数量 繁多 的 运算 符 ， 但 是 ， 
Perl 事实 上 只 提供 了 四 个 与 正则 表达 式 有 关 的 运算 符 ， 以 及 少量 的 相关 元 素 ( 见 表 7-1)。 


表 7-1: Perl 中 与 正则 表达 式 相 关 的 对 象 概览 


|a 
E Wl 达 式 
res bl see 


sa /repext mads (#306) 
s/regex/replacement/mods (7318) 
ar/regex/mods (7303) 







; 含义 E PE dt * man's 


正则 表达 式 的 解释 方式 (7292, 348) 
引 学 认定 的 目标 字符 囊 (7292) 
其 他 (7311, 315, 319) 






SPAS *) (7321) 
ce fe 5 +E == pe 有 = 
篇 译 指示 (Pragma) | 匹配 完成 之 后 的 变量 (729) 
use charnames ‘:full’; (“290)| $1'52 ARULA 
use overload; (7341) SN $+ 编号 最 小 /最 大 的 $1 、$2… 
@- @+ 二 目标 
use re 'eval'; (7337) 表示 目标 字符 串 中 


use re ‘debug'; (9361) S $S& $' 匹配 之 前 、 之 中 和 之 后 的 偏 移 值 数组 (最 好 不 
Al, 参见 eid St a Ë ae 


z . = Ss FRRRT TY c Y FEN r . P ee R 
TR: EP De eel SR, A x ee ty Mys % O pop ot LIE 
£ PN 276, - ASE ay = g nt H Px 5 x Bue ver A ge” tn is fi Tne 

= SEP. ! a PL SOAR hn bey se a PO A Regis 


le lefirst uc ucfirst (9290) 


pos (7313) quotemeta (7290) 
reset (7308) study (7359) eR nates (7302) 
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Perl MAREE BAK, (ERHARD, RHAALAK. 


Perl 的 长 处 


Perl’ s Greatest Strength 


Perl 最 大 的 优势 可 能 在 于 ，Perl 的 运算 符 和 函数 提供 了 丰富 的 选项 。 根 据 应 用 场合 的 不 同 ， 
它们 的 行为 也 不 同 ， 当 然 ， 这 通常 是 执行 者 在 那 种 场合 自然 想到 的 操作 。0O'Reilly 的 
Programming Perl 说 得 很 绝对 :“ 总 的 来 说 ，Perl 的 运算 符 可 以 做 你 希望 的 任何 事情 …… 。 
正则 匹配 运算 符 m/regex/ 提 供 了 许多 神奇 的 功能 ， 会 根据 应 用 的 场合 、 方 式 以 及 修饰 符 的 
不 同 而 变化 。 


Perl 的 短处 


Perl  s Greatest Weakness 


表达 能 力 太 强 ， 也 是 Perl 最 大 的 毛病 之 一 。 哪 怕 只 是 进行 极 小 的 修改 ， 也 有 数 不 清 的 特殊 
情况 、 条 件 和 场合 在 你 眼皮 底下 发 生变 化 ， 但 却 不 会 通知 你 一 一 不 经 意 之 间 就 切换 到 另 一 
种 应 用 场合 ( 注 2)。 在 Programming Perl 这 本 书 中 ， 上 面 那 句 话 的 下 半 句 是 “只 是 缺乏 一 
致 性 (consistency)”。 当 然 ， 对 计算 机 科学 来 说 ， 固 定 、 一 致 而 值得 依赖 的 接口 是 可 取 的 。 
Perl 的 强大 功能 在 有 经 验 的 用 户 手 里 可 能 是 强大 的 武器 ， 但 情况 似乎 是 ， 你 的 Perl 技能 不 
断 增 长 ， 是 以 不 断 地 射 伤 自己 的 月 闭 为 代价 的 。 


Perl 的 正则 流派 


Perl’ s Regex Flavor 





下 一 页 的 表 7-2 概要 描述 Perl 的 正则 风格 。 以 前 ，Perl 的 许多 元 字符 是 其 他 系统 不 支持 的 ， 
但 是 经 过 许多 年 之 后 ， 其 他 系统 接受 了 许多 Perl 的 创新 。 这 些 常 见 的 特性 在 第 3 章 的 概览 
里 有 描述 ， 但 是 Perl 还 有 专属 于 自己 的 元 素 ， 会 在 本 章 后 面 讲解 ( 表 7-2 覆盖 了 将 要 讲解 
的 各 个 元 素 ) 


下 面 是 对 表格 的 补充 ， 
O \b 只 有 在 字符 组 内 部 才 是 退 格 符 的 简 记 法 。 在 字符 组 外 部 ,\b 表 示 单 词 分 界 符 (了 133)。 
八进制 转 义 接收 2 到 3 位 的 数值 。 


N xnum 十 六 进 制 转 义 接收 两 位 数字 (也 可 以 是 一 位 数字 , 但 是 会 报警 )。"\x (num) AE 
接收 任意 长 度 的 十 六 进 制 数 。 


注 2; 虽然 应 用 场合 的 数目 很 多 ， 但 我 还 是 希望 在 本 章 涵 盖 所 有 内 容 。 


L 
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表 7-2: Perl 的 正则 流派 概览 





= , ; A See ees aoa 
115 (c) | \a IND) \e \£ \n ir \t \octal — x Nether} \echar 
7118 字符 组 ; [ero] [^…] (7 Me 46 £40 POSIX #4 [salphe: Tey 7127) 
#119 除 换行 符 外 的 所 有 字符 : 点 号 (使 用 /s 时 能 匹配 所 有 字符 ) 
7120 Unicode 组 合 字 符 序 列 :\ 
#120 单个 字 节 (有 危险 ) : \C 


#120 (c) 字符 组 缩 略 表示 法 2 \w \d \s W \D \S 
#121 (c) Unicode 属性 ， 字 母 表 和 区 块 ”: \p{Prop} \P{Prop} 











7129 行 /字符 囊 起 始 位置 : * \R 

F129 行 /字符 事 结 束 位 置 : $ \z z 

#315 前 一 次 匹配 的 结束 位 置 : \G 

F133 st \b \B 

F133 HAUS: (Parr) (?!…) (?<=…) (Pele Li 


aie ees 人 
py reer 的 和 是 。 smi (7-292) 
oe gus (?mods-mods : - 


注释 : (PH 全 ror # Fih, ts vada 
i pn : sees wig a S nE suf" cake SEES, P E 












=137 — (en) NL \2.. 

137 仅 用 于 分 组 的 括号 : (? 

#139 固化 分 组 : (?>…) 

F139 多 选 结 构 : | 

F140 条 件 判 断 : (?ifthenlelse) 一 一 if 部 分 可 以 为 内 性 代码 、 了 环视， 或 是 (num) 
F141 匹配 优先 量词 : * + ? {n} {n,} {x,y} 

F141 忽略 优先 量词 : *? +? ?? {n}? {n,}? {x,y}? 

F327 AKRA: (?{…)}) 






RELAX: (PPC D 
7 3 5 bess aie Se Act pe E R nae i . ee f 
变量 插值 : Pear 









T289 (c) 


#290 (c) 大 小 写 转换 : \1 \u 
7290 (c) K)PSMREM: U \D NE 
#290 (c) 文字 文本 范围 : \Q…\E 


7290 (c) 命名 的 Unicode 字符 : \N{name} 一 一 可 选 出 现 ， 参 见 第 290 页 
(c) 表示 可 以 在 字符 组 内 部 使 用 O-O, ELIRAS 
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© \w、\d、\s 之 类 完全 支持 Unicode, 
Perl 的 \s 不 能 匹配 ASCI 的 垂直 制 表 符 (97115), 
G Perl 的 Unicode 支持 针对 的 是 Unicode Version 4.1.0, 


Unicode 字母 表 也 能 支持 。 字 母 表 和 属性 名 可 以 有 “Is” 前 级 ， 但 并 非 必 须 (9125), 
区 块 名 可 以 有 “In” 前 级 ,但 只 有 在 区 块 和 字母 表 的 名 字 发 生 溃 突 时 才 必 须 使 用 。 


Perl W ## '\p(L&}s, '\p{Any}i, ‘\p{Al1}, '\p{Assigned}s #il'\p (unassigned), RYE, 


Perl 支持 例如 “\p{Lettezr)) 的 长 属性 名 。 名 字 的 各 个 单词 之 间 可 能 是 空格 、 下 画 线 ， 
或 者 什么 也 没有 ，( 例 如 发 p{Lowercase_Letter}j， 也 可 能 写作 ' \p{Lowercase 
Letter})) ZÆ \p{Lowercase'Letter}:), 为 了 前 后 一 致 ， 我 推荐 使 用 第 123 页 表 
格 中 的 长 命名 。 


Apine SOF VPC 
© 单词 分 界 符 完全 支持 Unicode, 
© 顺序 环视 可 能 包含 捕获 型 括号 。 
逆序 环视 中 的 子 表达 式 必须 匹配 固定 长 度 的 文本 。 


© /x 修饰 符 只 能 识别 ASCI 空白 字符 。/m 只 对 换行 符 有 影响 ， 而 且 不 是 所 有 的 Unicode 
换行 符 。 


/i 能够 在 Unicode 中 正常 工作 。 


所 有 的 元 字符 并 不 是 生 而 平等 的 。 正则 元 字符 ”没有 得 到 正则 引擎 的 支持 ， 但 Perl 的 正则 
文字 预 处 理 机 制 能 对 付 。 


正则 运算 符 和 正则 文字 


Regex Operands and Regex Literals 


K 7-2 最 下 面 的 条 目标 注 有 “专属 于 正则 文字 ”。 正 则 文字 (regex literal) 就 是 m/regex/ 部 
分 中 的 “regex”， 虽 然 平时 称 其 为 “正则 表达 式 ”,， 但 在 “/” 分 隔 符 之 间 的 部 分 是 有 自己 的 
解析 规则 。 用 Perl 的 行 话 来 说 , 正则 文字 就 是 “表示 正则 含义 的 双 引 号 字符 串 (regex-aware 
double-quoted string)”， 及 处 理 之 后 传递 给 正则 引擎 的 结果 。 正 则 文字 处 理 机 制 提供 了 特殊 
的 功能 来 构建 正则 表达 式 。 


举例 来 说 ， 正 则 文字 提供 了 变量 插值 功能 。 如 果 变 量 Snunm 的 值 是 20， 代 码 m/:. {$num}:/ 
得 到 的 就 是 : . {20} :,。 这 样 可 以 根据 需要 即时 构建 正则 表达 式 。 正 则 文字 的 另 一 功能 是 大 
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小 写 自动 切换 展开 ，\U…\E 可 以 保证 其 中 的 字母 均 为 大 写 。 比 如 ，myabc\Uxyz\E/ 得 到 正 
则 表达 式 'abpcxYzi。 这 个 例子 有 点 做 作 , 如 果 需 要 使 用 'abcxYzi, 应 该 直接 输入 m/abcxY2z/， 
但 是 这 种 功能 结合 变量 插值 就 很 有 用 : 如 果 变 量 sScag 包含 字符 串 “title”， 则 代码 


m{</\UStag\E>} 得 到 '</TITLE>J。 





除 正则 文字 之 外 还 有 什么 呢 ?” 我 们 可 以 把 字符 串 (或 者 任何 表达 式 ) 当 作 正则 运算 元 ， 比 
an: 


$MatchField = "“Subject:"; # #2 FH SRE 


4sMatchField 用 作 =~ 的 运算 元 时 ， 它 的 值 就 被 解释 (interpreted) 为 正则 表达 式 。 这 里 只 
能 “解释 ”普通 的 正则 表达 式 ， 所 以 不 支持 只 作用 于 正则 文字 的 变量 插值 入 Q…\ Ei。 


下 面 的 例子 值得 思考 ， 如 果 把 : 


Stext =~ $MatchField 
BRA: 
Stext =~ m/SMatchField/ 


结果 完全 一 样 。 这 里 的 正则 文字 只 包含 一 个 元 素 一 一 变量 $MatchFie1ld。 正则 文字 中 插值 变 
量 的 值 不 会 被 当 作 正则 文字 处 理 ， 所 以 变量 内 的 \0…\B 和 $var 之 类 不 会 被 识别 (第 292 页 
说 明了 正则 文字 的 处 理 细节 )。 


如 果 正 则 表达 式 在 程序 的 执行 期 间 需要 多 次 用 到 ， 那 么 正则 运算 元 采用 字符 串 或 变量 插值 
的 效率 差距 就 很 明显 。 第 348 页 讨论 了 这 个 问题 。 


正则 文字 支持 的 特性 


正则 文字 提供 下 面 的 特性 : 


。 ”变量 插值 正则 表达 式 中 以 $ 和 e 开 头 的 变量 会 被 替换 为 实际 变量 的 值 。$ 变 量 插入 一 个 
简单 的 纯 量 值 (scalar value)。 以 e 开 头 的 插入 数组 或 者 数组 的 一 部 分 ， 以 空格 分 隔 各 
个 元 素 (其 实 是 以 $" 变 量 作 分 隔 符 ， 它 的 默认 值 是 空格 ) 。 


在 Pen 中 ,，'%s”3 引 入 一 个 散 列 变量 (hash variable), 但 是 在 字符 串 中 插入 -个 散 列 变 
量 并 没有 太 大 的 意义 ， 所 以 Perl 不 支持 插值 。 
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命名 的 Unicode 字符 如 果 程 序 中 包含 “usee charnames ' :full';” ,就 可 以 用 \N {name) 
序列 引用 Unicode 字符 。 例 如 ，\N{LATIN SMALL LETTER SHARP S} 匹 配 “&”"。 在 Perl 
的 unicore 目录 下 的 UnicodeData.txt 中 可 以 找到 Perl 支持 的 Unicode 字符 列表 。 下 面 
的 代码 能 够 报告 文件 的 位 置 ， 

use Config; 

print "$Config{privlib} /unicore/UnicodeData.txt\n"; 

“use charnames ':full';” (RAS Eid, RHIC ‘full’ 前面 添加 冒号 ， 果 

真如 此 的 话 ，\N{…} 就 不 能 正常 工作 。 同 样 ， 如 果 使 用 了 下 面 介绍 的 正则 表达 式 重 载 ， 
\N{…} 也 不 能 正常 工作 。 


大 小 写 转换 前 缀 \1 和 \u 能 够 把 后 面 的 字符 转换 为 小 写 或 大 写 形式 。 通 常 我 们 使 用 此 
功能 来 转换 插值 变量 的 第 一 个 字符 。 举 例 来 说 ， 如 果 变 量 $title 包含 “mr.”，m/… 
\ustitle…/ 就 能 生成 正则 表达 式 Mr. Perl 的 lcfirst (O $l ucfirst O MRE 
供 了 同样 的 功能 。 


大 小 写 转换 范围 \L 和 \u 能 够 把 后 面 所 有 的 字符 转换 为 小 写 或 大 写 ， 其 作用 范围 一 直 
到 表达 式 末 尾 ， 或 是 \B 为 止 。 同 样 是 Stitle，m/…\UsStitle\E…/ 会 产生 正则 表达 式 
LeMR. Je Perl 的 1c() 和 uc() 函 数 提 供 了 同样 的 功能 。 


我 们 可 以 把 这 两 者 结合 起 来 : 无 论 变 量 stitle 采用 怎样 的 字母 组 合 ，m/… 


\L\uStitle\E…/ 都 会 得 到 "Mr .…。 


文字 文本 范围 \Q“ 转 义 (quote)” 正 则 表达 式 元 字符 (也 就 是 在 它们 之 前 放 一 个 反 斜 
线 , 保证 它们 只 作为 普通 的 字符 )， 其 作用 范围 直到 字符 串 的 结尾 ,或 者 直到 \g。 它 能 
转 义 正则 表达 式 元 字符 , 但 不 能 转 义 表示 变量 插值 的 正则 文字 \g, 当然 也 不 能 转 义 \E。 
奇怪 的 是 ， 如 果 反 斜 线 开头 的 字符 序列 不 能 识别 一 一 例如 \F 或 者 \H， 反 斜 线 也 不 会 被 
转 义 。 即 使 是 \Q…\E， 这 样 的 序列 也 会 导致 “unrecognized escape” 警 告 。 


在 实践 中 ， 这 些 限制 并 不 是 严重 的 缺陷 ，\Q…\E 通常 用 于 引用 插值 文本 ， 这 样 就 可 
以 正确 转 义 所 有 的 元 字符 。 例 如 ,如 果 Stitle 包含 “Mr.”, 那么 代码 m/…\Qstit1le\E.… 
/就 会 生成 正则 表达 式 …Mr\.… 我 们 要 的 就 是 这 样 一 -希望 匹配 的 是 $title 中 的 字 
符 ， 而 不 是 $title 中 的 正则 表达 式 。 


如 果 你 希望 在 正则 表达 式 中 包含 某 些 用 户 输入 的 数据 ， 这 非常 有 用 。 举 例 来 说 ， 
m/\Q$UserInput\E/i 能 够 对 SUserInput (作为 字符 串 ， 而 不 是 正则 表达 式 ) 中 的 字 
符 进 行 不 区 分 大 小 写 的 搜索 。 


Perl 的 函数 quotemeta() 提 供 了 与 \Q…\E 等 价 的 功能 。 
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BR EDER, 用户 可 以 使 用 任何 期 望 的 方式 预 处 理 正则 文字 的 文字 字符 。 这 是 概念 
值得 讨论 ， 但 是 目前 的 实现 还 有 诸多 限制 。 关 于 重 载 的 细节 讨论 请 参见 第 341 页 。 


使 用 自己 的 正则 表达 式 分 隔 符 


Perl 语法 中 最 奇妙 (也 是 最 有 用 ) 的 特性 之 一 就 是 用 户 可 以 使 用 自己 的 正则 文字 分 隔 符 。 传 
统 的 分 隔 符 是 斜 线 ， 例 如 m/…/、s/…/…/ 和 qr/…/， 不 过 还 可 以 使 用 除数 字 、 字 母 和 空 
格 之 外 的 字符 。 常 用 的 包括 : 


m! veel mt{"*} 
m,…， Mm<***> 
Sj)'**| .| m[…] 
qare ml('*) 
右边 四 个 是 特殊 的 分 隔 符 : 


右边 的 四 个 例子 具有 不 同 的 开始 -结束 分 隔 符 ， 而且 可 能 幅 套 (也 就 是 说 ， 如 果 开 始 - 
结束 分 隔 符 匹配 恰当 , 表达 式 中 容许 包含 与 分 隔 符 一 样 的 字符 )。 因 为 圆 括 号 和 方 括号 
在 正则 表达 式 中 经 常用 到 ,m(…) 和 m[…] 可 能 不 如 其 他 更 有 吸引 力 ,使 用 /x 修饰 符 时 ， 
可 能 出 现下 面 的 形式 : 
ml{ 
regex # comments 
here # here 
}x; 
也 可 以 使 用 某 种 组 合 标记 regex ， 另 一 组 《如果 你 喜欢 ， 也 可 以 用 同样 的 ) 标记 
replacement。 例 如 : 
S{… beret 
s<> (=) 
S[…] fuse] 
如 果 这 样 做 了 ， 就 可 以 在 两 对 分 隔 符 之 间 插 人 空格 和 注释 。 第 319 页 进一步 讲解 了 
substitution 运算 符 的 replacement 运算 元 。 


对 match 运算 符 来 说 ， 把 问号 作为 分 隔 符 有 其 特殊 价值 (禁止 更 多 的 匹配 ) ， 这 一 点 在 
下 一 节 讲 解 关于 match 运算 符 时 讨论 (7308), 


lil 
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。 288 页 已 经 提 到 ， 正 则 文字 被 解析 成 “表示 正则 含义 的 双 引 号 字符 串 "。 如 果 用 单 引 号 
作 分 隔 符 ， 就 无 法 使 用 这 些 功 能 。 使 用 m'…' 时 就 不 会 进行 变量 插值 ， 实 时 修改 文本 
的 结构 (比如 \Q…\E) 不 会 生效 ，\N{…} 也 无 法 使 用 。 也 许 在 使 用 包含 多 个 8 的 正则 
表达 式 时 m'…' 很 有 价值 ， 因 为 这 样 可 以 不 需要 转 义 。 

如 果 进 行 match 操作 ， 而 分 隔 符 是 斜 线 或 者 问号 ， 可 以 省 略 mn， 也 就 是 : 


$text =~ m/*/; 
$text =~ /*/; 


是 等 价 的 。 但 我 更 喜欢 明确 写 上 m。 
正则 文字 的 解析 方式 
How Regex Literals Are Parsed 


大 多 数 情况 下 ， 如 果 用 户 “ 只 会 用 到 ”上 文 讲解 的 正则 文字 特性 ， 就 不 需要 理解 Perl 将 它 
们 转换 为 真正 的 正则 表达 式 的 具体 细节 。 就 这 一 点 来 说 ，Perl 直观 性 非常 方便 , 但 是 许多 时 
候 ， 了 解 细节 并 无 坏处 。 下 面 列 出 了 各 种 处 理 的 顺序 : 


. 找到 结束 分 隔 符 ， 读 人 修饰 符 〈 例 如 /i 之 类 )。 下 面 的 处 理 就 能 判断 是 否 采用 了 /x 之 类 
的 模式 。 


2. 变量 插值 。 


. 如 果 使 用 了 正则 表达 式 重 载 ， 正 则 文字 的 每 个 部 分 都 会 交 给 重 载 子 程序 来 处 理 。 各 部 分 
由 插值 变量 分 隔 ， 插 入 的 值 是 无 法 重 载 的 。 


如 果 正 则 表达 式 没 有 进行 重 载 ， 处 理 \N{…}。 
4. 应 用 大 小 写 转换 结构 【例如 \Q8…\E)。 
5. 把 结果 提交 给 正则 引擎 。 
以 上 是 程序 员 眼 中 的 处 理 ， 但 是 Perl 内 部 的 处 理 其 实 是 很 复杂 的 。 单 单 是 第 二 步 ， 就 必须 
识别 正则 表达 式 的 元 字符 ， 比 如 不 应 把 chisg1lchacsS 下 画 线 的 那 部 分 识别 为 变量 。 
正则 修饰 符 
Regex Modifiers 


Perl 的 正则 运算 符 容许 在 正则 文字 的 结束 分 隔 符 之 后 添加 正则 修饰 符 (例如 m/… /i、s/…/… 
/和 ar/…/ 计 中 的 1)。 所 有 运算 符 都 支持 的 核心 修饰 符 一 共有 5 种 ， 详 见 表 7-3。 


头 四 种 在 第 3 章 已 经 介绍 过 ， 它 们 能 够 作为 模式 修饰 符 (7135) 或 者 范围 模式 修饰 符 
(=135)， 在 正则 表达 式 之 中 使 用 。 如 果 正 则 表达 式 内 部 出 现 了 修饰 符 ，match 运算 符 也 用 


— 


w 


if 
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表 7-3: 所 有 正则 运算 符 可 用 到 的 核心 修饰 符 


/i 7110 进行 忽略 大 小 写 的 匹配 
/x ajll 宽松 排列 和 注释 模式 
/s Fil 点 号 通 配 模式 

/m w 112 增强 的 行 锚 点 模式 

/o F348 仅 编 译 一 次 


到 了 修饰 符 ， 则 正则 表达 式 内 部 的 修饰 符 的 优先 级 更 高 (从 另 一 方面 来 说 就 是 ， 一 旦 修饰 
符 应 用 到 正则 表达 式 内 部 的 某 些 元 素 ， 这 些 元 素 就 不 再 受 其 他 修饰 符 的 影响 )。 


第 五 个 核心 修饰 符 /co， 与 效率 有 很 大 的 关系 。 此 问题 从 第 348 页 开始 讨论 。 


如 果 需 要 使 用 多 个 修饰 符 ， 只 需要 把 它们 并 排列 在 结束 分 隔 符 之 后 即 可 ， 排 列 的 顺序 是 无 
关 紧 要 的 ( 注 3)。 请 注意 , 斜 线 本 身 不 是 修饰 符 , 你 可 以 使 用 m/<title>/i、 mi<title>11， 
或 是 mi<title>}i, BBE m<<title>>i。 不 过 在 讲解 修饰 符 时 ， 通 行 的 做 法 是 加 上 一 个 
wee, Pa “ETFi”. 


正则 表达 式 相 关 的 Perl 教义 


Regex-Related Perlisms 


学 习 正则 表达 式 ， 还 需要 掌握 许多 一 般 的 Perl 概念 。 下 面 几 节 的 内 容 包括 ; 


” ”应 用 场合 (context) Pel 的 重要 概念 之 一 就 是 ， 许 多 函数 和 运算 符 在 不 同 应 用 场合 有 
不 同 的 意义 。 例 如 ，Perl 的 while 循环 希望 接收 一 个 纯 量 值 (scalar value) 作为 判断 
条 件 ， 但 对 于 print 语句 希望 接收 一 组 值 (a list of value)。 因 为 Per 容许 表达 式 对 其 应 
用 场合 进行 “响应 ”(respond) ， 同 样 的 表达 式 在 不 同 的 应 用 场合 可 能 得 到 截然 不 同 的 
结果 。 


* ”动态 作用 域 (dynamic scope) 大 多 数 编程 语言 都 支持 本 地 变量 和 全 局 变量 ， 但 是 Perl 
还 提供 了 另 一 种 复杂 功能 ， 称 为 动态 作用 域 。 动 态 作用 域 会 临时 “保护 ”全 局 变量 ， 
保存 一 份 副本 ， 稍 后 自动 恢复 。 这 个 复杂 的 概念 对 我 们 来 说 很 重要 ， 因 为 它 影响 到 $1 
和 其 他 的 匹配 相关 变量 。 


注 3: 因为 修饰 宁可 以 以 任意 形 式 出 现 、 程 序 员 通常 会 花 很 多 精力 调整 修饰 桂 ， 让 它们 看 上 去 最 
顺眼,learn/by/osmosis 是 没 问题 的 (假设 函数 名 是 learn) ,其 中 的 修饰 符 是 osmosis， 
修饰 符 可 以 重复 出 现 ， 但 这 没有 意义 ( 稍 后 讨论 的 替换 运算 竺 的 /e 是 个 例外 ) 。 
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表达 式 应 用 场合 


Expression Context 


context 对 Perl 来 说 是 很 重要 的 概念 ， 尤 其 对 match 运算 符 来 说 更 是 如 此 。 一 个 表达 式 可 能 
出 现在 三 种 context 中 : 序列 (list)、 纯 量 值 (scalar) 或 者 空 (void) ， 它 们 表示 表达 式 期 户 
接收 的 参数 类 型 。 所 以，list context 说 明 表 达 式 期 望 获得 一 个 序列 。scalar context 说 明 表 达 
式 期 望 获得 单个 值 。 以 上 两 者 极为 常见 ， 而 且 对 使 用 正则 表达 式 非常 有 价值 。void context 
说 明 不 期 望 获得 任何 值 。 


看 下 面 两 个 赋值 : 


$s = expression one; 
@a = expression two; 


因为 $s 是 scalar 变量 ( 它 用 来 保存 单个 的 值 ， 而 不 是 序列 )， 期 望 简单 的 纯 量 值 ， 所 以 第 一 
个 表达 式 的 应 用 场合 为 scalar context。 同 样 ， 因 为 ea 是 一 个 数组 ， 期 望 获得 一 个 list， 第 二 
个 表达 式 的 应 用 场合 为 list context。 即 使 这 两 个 表达 式 完全 等 价 ， 也 可 能 返回 完全 不 同 的 结 
果 ， 产 生 不 同 的 影响 。 具 体 情况 依 表 达 式 而 定 。 


举例 来 说 ，localtime 函数 如 果 用 在 list context 中 ， 会 返回 一 组 值 ， 表 示 当 前 年 、 月 、 日 、 
时 。 但 如 果 用 在 scalar context FP, 则 返回 文本 类 型 的 当前 时 间 , 比如 ‘Mon Jan 20 22:05:15 
2003’, 


另 一 个 例子 是 <MYDATA> 之 类 的 VO 运算 符 ， 在 scalar context 中 ， 它 返回 文件 的 下 一 行 ， 但 
是 在 list context 中 ， 返 回 所 有 ( 剩 下 的 ) 行 。 


BEAR localtime fil VO 运算 符 一样 , 许多 Perl 的 结构 会 根据 应 用 场合 的 不 同 返回 不 同 的 值 ， 
正则 运算 符 同样 如 此 。 拿 match 运算 符 m/…/ 来 说 ， 有 时 候 它 会 简单 地 返回 true/false (A, 
有 时 候 返 回 一 组 匹配 结果 。 所 有 的 细节 都 会 在 本 章 讲 解 。 


强 转正 则 表达 式 


不 是 所 有 的 正则 表达 式 天 生 都 能 区 分 场合 的 ， 所 以 ， 如 果 某 个 应 用 场合 中 正则 表达 式 无 法 
提供 期 望 的 返回 类 型 ， 就 要 按照 Perl 的 规定 处 理 。 为 了 把 方 桩 插入 圆 孔 ，Perl 会 “ 强 转 
(contort)” 这 个 值 。 如 果 在 list context 中 返回 的 是 scalar 值 ，Perl 会 生成 只 包含 单个 元 素 
的 ist。 这样 ea = 42 就 等 于 ea = (42), 
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另 一 方面 ， 把 list HRA scalar 却 没有 统一 的 规定 。 如 果 程 序 是 这 样 : 


Svar = (Sthis, &is, OxA, 'list'); 


逗号 运算 符 返 回 最 后 的 元 素 “1ist" 给 $var。 如 果 给 定 的 是 一 个 数组 , 例如 $var = earray， 
则 返回 数组 的 长 度 。 


其 他 语言 用 不 同 的 术语 描述 这 种 处 理 , 例如 修正 (cast)、 提示 (promote), 强制 转换 (coerce) 
或 转换 (convert) ， 但 是 我 认为 这 些 词 都 已 经 具有 了 自己 的 意义 (有 点 令 人 讨厌 ) ， 不 适合 
描述 Perl 的 做 法 ， 所 以 我 使 用 “ 强 转 (contort)”, 


动态 作用 域 及 正则 匹配 效应 


Dynamic Scope and Regex Match Effects 


Perl 的 变量 分 为 两 类 (全 局 变量 和 私有 变量 ), 动态 作用 域 是 正确 理解 它们 的 重点 , 研究 正 
则 表达 式 时 也 需要 关注 此 概念 ， 因 为 它 关 系 到 匹配 完成 之 后 信息 如 何 使 用 。 下 一 节 介 绍 了 
这 些 概念 及 其 与 正则 表达 式 的 关系 。 


全 局 和 私有 变量 


总 的 来 说 ，Perl 提供 了 两 种 变量 : 全 局 的 和 私有 的 。 私 有 变量 使 用 my (…) 来 声明 ， 全 局 变 
量 不 需要 声明 ， 在 使 用 时 会 自动 出 现 。 全 局 变量 通常 在 程序 的 任何 地 方 都 是 可 见 的 ， 而 私 
有 变量 ， 按 照 语言 的 规定 只 有 在 它们 所 属 的 代码 块 之 内 才 是 可 见 的 。 也 就 是 说 ， 只 有 私有 
变量 声明 所 在 的 代码 块 之 内 的 Perl 代码 ， 能 够 访问 私有 变量 。 


全 局 变量 的 使 用 则 很 普通 ， 只 是 有 的 特殊 变量 不 太 好 理解 ， 例 如 $1、$_、eARGB 之 类 。 普 
通用 户 的 变量 是 全 局 的 ， 除 非 它们 以 my 来 声明 ， 否 则 即使 它们 “看 上 去 ”是 私有 的 ， 也 是 
全 局 变量 。 按 照 Perl HHE, Package Acme: :Widget 中 的 全 局 变量 Spebug， 虽 然 有 完整 
的 限定 名 $Acme: :widget: :Debug， 仍 然 是 一 个 全 局 变量 。 如 果 出 现 了 use strict;, ill 
所 有 (不 包括 特殊 的 ) 全 局 变量 必须 使 用 完整 的 限定 名 ， 或 者 通过 our 来 声明 (our 声明 一 
个 名 称 (name) ， 而 不 是 一 个 新 变量 ， 请 参考 Perl 的 文档 ) 。 


使 用 动态 作用 域 的 值 


动态 作用 域 (dynamic scoping) 是 个 值得 一 提 的 概念 ， 很 少 有 编程 语言 提供 这 种 功能 。 下 文 
会 讲解 它 与 正则 表达 式 的 关系 ， 简 单 地 说 ， 动 态 作 用 域 可 以 让 Perl 保存 全 局 变量 的 一 个 副 
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本 ， 在 某 个 代码 块 中 修改 此 副本 ， 退 出 之 后 自动 恢复 原来 的 值 。 保 存 副 本 的 操作 就 称 为 生 
成 动态 作用 域 (creating a new dynamic scope) ， 或 者 本 地 化 (localizing). 


使 用 动态 作用 域 的 原因 之 一 是 为 了 临时 改变 某 些 保存 在 全 局 变量 中 的 某 些 全 局 状态 。 举 例 
来 说 ，package Acme: :widget 提供 了 一 个 调试 标志 位 (fag)， 我 们 可 以 修改 全 局 变量 
$Acme ::Widget::Debug 来 启用 或 者 停 用 调试 功能 。 下 面 的 代码 可 以 临时 改变 此 标志 位 : 


sses.. 


local($Acme::Widget::Debug) = 1; # 确保 启用 
# 此 时 Acme: :Widget::Debug 已 启用 、 可 以 调试 


# SAcme::Widget::Debug 现在 恢复 到 原来 的 值 


local 函数 的 命名 很 成 问题 ， 但 它 生 成 了 一 个 新 的 动态 作用 域 。 调 用 local 并 没有 创造 新 
ASEM, local 是 行为 ， 而 不 是 声明 。 在 全 局 变量 之 前 ，local 做 了 三 步 处 理 ; 


1. 在 内 部 保存 变量 值 的 副本 ， 
2. 把 新 值 赋予 到 变量 (无 论 是 undef 还 是 传 给 local 的 值 )， 
3. local 代码 块 执行 结束 之 后 ， 把 变量 恢复 到 之 前 的 值 。 


也 就 是 说 ， local” 指 的 是 对 变量 的 修改 的 持续 时 间 。 对 本 地 化 的 变量 来 说 ， 持 续 时 间 就 是 
代码 块 执行 的 时 间 。 如 果 代 码 块 中 调用 了 子 程序 ， 本 地 化 的 值 仍然 保留 毕竟， 变量 仍然 
是 一 个 全 局 变量 )。 它 与 非 本 地 化 的 全 局 变量 的 唯一 区 别 是 ， 在 代码 块 执行 完成 之 后 ， 之 前 
的 值 会 被 恢复 。 


local 对 全 局 变量 的 自动 保存 和 恢复 比 想象 的 要 复杂 。 请 参考 表 7-4 右 侧 , 详细 了 解 背后 的 
处 理 。 


为 方便 起 见 ， 我 们 也 可 以 给 本 地 变量 赋 一 个 值 local ($Ssomevar) ， 这 等 于 把 undef 赋值 给 
$someVar。 如 果 不 使 用 括号 ， 表 示 强 制 使 用 scalar context, 


举 个 实际 的 例子 ,我 们 需要 调用 一 个 写 得 很 精 糕 的 函数 ,而 它 会 产生 许多 “Use of uninitialized 
value” 的 警告 。 优 秀 的 Perl 程序 员 都 会 使 用 Perl 的 -w 选项 来 解决 这 个 问题 , 但 是 库 的 作者 
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表 7-4: local 的 含义 











local ($SomeVar); # save copy my $TempCopy = $SomeVar; 
$SomeVar = undef; 
$SomeVar = 'My Value'; $SomeVar = 'My Value'; 


ssssse K o a 


$SomeVar = $TempCopy; 
} # 自动 恢复 到 之 前 的 值 


显然 没有 。 你 对 这 些 警告 非常 恼火 ， 但 是 如 果 不 能 修改 程序 库 ， 有 什么 其 他 简便 办 法 来 代 
赫 -w 吗 ?这 时 候 可 以 使 用 对 $^w 的 调用 的 local, 即时 关闭 警报 (^w 可 以 表示 为 两 个 字符 ， 
BFF ‘w, RRE ctrl+W )。 
{ 
local $^W = 0; # 确保 关闭 警报 


UnrulyFunction(…) ; 





} 
# 进出 代码 块 ， 把 $^W 恢复 到 原来 的 值 


无 论 全 局 变量 $^W 是 什么 值 ， 调 用 local 保存 都 会 为 其 保存 一 份 内 部 副本 。 然 后 $^w 被 用 户 
置 为 0。 上面 提 到 的 精 糕 程序 在 执行 时 ，Perl 检查 s^w， 发 现 其 值 为 0， 就 不 会 发 出 警报 。 
在 国 数 返 回 时 ， 新 值 0 仍然 有 效 。 


这 样 看 来 ， 不 用 local 的 话 似乎 也 没有 问题 。 不 过 ， 在 子 程序 返回 ， 代 码 块 退出 时 ，s“^w 
会 恢复 到 之 前 的 值 。 这 种 改变 是 本 地 的 、 即 时 的 ， 只 在 代码 块 内 部 生效 。 按 照 表 7-4 右 侧 的 
做 法 ， 用 户 可 以 手工 生成 和 返回 副本 ， 达 到 同样 的 效果 ， 但 是 local 更 为 方便 。 


考虑 在 其 他 情况 下 会 发 生 什 么 ， 比 如 用 my 替代 local ( 注 4), my 会 新 建 一 个 变量 ， 其 初 
始 值 是 undef 。 只 有 在 声明 的 代码 块 中 才 可 见 (也 就 是 说 ， 在 my 和 它 所 在 的 代码 块 结束 之 
间 )。 它 不 会 改变 、 修 改 ， 或 以 其 他 方式 引用 和 影响 其 他 变量 ， 包 括 可 能 存在 的 同样 名 字 的 
全 局 变量 。 新 建 的 变量 在 程序 的 其 他 部 分 都 不 可 见 ， 包 括 在 那个 糟糕 的 程序 内 。 这 样 新 的 
sw 的 确 被 置 为 0， 但 永远 不 会 再 使 用 或 者 引用 ， 所 以 它 完全 是 白费 工夫 (执行 精 糕 的 程序 
时 ，Perl 根据 与 其 无 关 的 全 局 变量 $5^W 决定 是 否 报警 )。 


注 4: Perl 不 容许 对 这 个 特殊 的 变量 名 使 用 my， 所 以 这 种 比较 只 有 理论 意义 。 
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更 好 的 比喻 : 充分 的 透明 度 


可 以 这 样 理解 1ocal ， 它 对 变量 的 修改 是 用 户 完全 无 法 察觉 的 《好像 是 把 新 值 投影 到 原 变 
量 之 上 )。 用 户 (还 包括 能 看 到 的 任何 人 , 例如 子 程序 和 信号 处 理 程序 ) 会 看 到 这 些 新 的 值 。 
在 代码 块 结束 之 前 ，local 的 修改 会 取代 之 前 的 值 。 退 出 之 后 ， 这 种 透明 特性 会 自动 消除 ， 
也 就 是 取消 local 进行 的 所 有 修改 。 


相 比 “保存 一 个 内 部 副本 ”， 这 个 比喻 更 接近 现实 。 使 用 local 并 不 会 生成 一 个 副本 ， 而 是 
在 访问 变量 时 ， 使 用 新 设置 的 值 ( 即 屏蔽 原来 的 值 )。 退 出 代码 块 之 后 会 抛弃 新 设置 的 值 。 
调用 local 时 ， 新 值 是 手动 设置 的 ， 但 我 们 要 讲解 这 些 细节 的 原因 在 于 : 正则 表达 式 的 伴 
随 效应 变量 (side-effect variables) 会 自动 使 用 动态 作用 域 。 


正则 表达 式 的 伴随 效应 和 动态 作用 域 


正则 表达 式 与 动态 作用 域 有 什么 关系 呢 ? 关系 很 大 。 作 为 伴随 效应 ， 许 多 变量 一 一 例如 ss 

(引用 匹配 的 文本 ) 和 $1 (引用 第 一 组 括号 内 表达 式 匹 配 的 文本 ) 会 在 匹配 成 功 时 自 
动 设置 。 在 下 一 节 会 详细 讨论 这 些 问 题 。 在 其 所 处 的 代码 块 中 ， 这 些 变量 都 会 自动 使 用 动 
态 作 用 域 。 





这 种 设计 的 好 处 在 于 ， 每 次 调用 子 程序 都 要 启动 新 的 代码 块 ， 也 就 是 为 这 些 变量 提供 了 新 
的 动态 作用 域 范围 。 因 为 在 代码 块 之 前 的 值 会 在 代码 块 执行 完 之 后 恢复 (也 就 是 子 程序 返 
回 时 )， 子 程序 不 能 改变 调用 方 能 看 到 的 值 。 


来 看 个 例子 : 


if ( m/(…)/ ) 
i DoSomeOtherStuff(); 
print "the matched text was $1.\n"; 
] 
因为 $1 的 值 在 进入 代码 块 时 进行 了 动态 作用 域 处 理 ， 这 段 代 码 不 关心 也 不 必 关 心 ， 函 数 
DoSomeOtherStuff 是 否 改 变 了 $1 的 值 。 此 函数 对 $1 的 任何 改动 都 只 在 函数 定义 的 代码 块 
内 部 ， 或 者 函数 的 子 代 码 块 中 生效 。 所 以 ，DoSomeOtherstuff 不 会 影响 print 接收 的 $1 


的 值 。 


ifl 
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自动 使 用 动态 作用 域 很 有 用 ， 虽 然 有 时 候 不 那么 明显 : 


if ($result =~ IERROR=( .*)/) { 
warn “Hey, tell $Config{perladmin} about $1!\n"; 
} 


标准 库 模 块 config 定义 了 一 个 关联 数组 (associative array) %sconfig， 其 成 员 $config- 
{perladmin} 保 存 本 地 Perlmaster 的 E-mail 地 址 。 如 果 $1 没有 使 用 动态 作用 域 ， 这 段 代 码 
就 很 难 理解 ， 因 为 sconfg 是 一 个 绑 定 变量 (tied variable) 。 也 就 是 说 ， 对 它 的 任何 引用 都 
意味 着 幕后 的 子 程序 调用 ， 用 sconfig{…)} 进 行 正 则 表达 式 匹配 时 ，config 中 的 子 程序 返 
回 对 应 的 值 。 这 次 匹配 发 生 在 上 一 行 的 匹配 和 对 $1 的 使 用 中 间 ， 所 以 如 果 $1 没有 使 用 动态 
作用 域 ， 它 的 值 会 被 修改 。 所 以 ，$config{…} 中 对 $1 的 任何 修改 都 被 动态 作用 域 安全 地 
保护 了 起 来 。 


动态 作用 域 还 是 词法 作用 域 


如 果 使 用 恰当 ， 动 态 作 用 域 能 提供 许多 便利 ， 但 是 滥用 动态 作用 域 会 带 来 无 休止 的 栈 梦 ， 
因为 阅读 程序 的 人 很 难 理解 ， 分 散在 散落 的 1ocal 、 子 程序 和 本 地 变量 引用 之 间 的 复杂 交 
互 。 


我 曾 说 ，my (…) 声明 会 在 词法 范围 (lexical scope) 内 创造 一 个 私有 变量 。 与 私有 变量 的 词 
法 范围 对 应 的 是 全 局 变量 的 范围 ， 但 是 词法 范围 与 动态 作用 域 没 有 关系 ( 仅 有 的 联系 是 : 
不 能 对 my 变量 调用 local)。 请 记 住 ，local 只 是 行为 (action) ， 而 my 既是 行为 ， 又 是 声 
明 ， 这 很 重要 。 


匹配 修改 的 特殊 变量 


Special Variables Modified by a Match 


成 功 的 匹配 会 设置 一 组 只 读 的 全 局 变量 ， 它 们 通常 会 自动 使 用 动态 作用 域 。 如 果 匹 配 不 成 
功 ， 这些 值 永远 也 不 会 改变 。 在 需要 的 时 候 ， 它 们 会 设置 为 空 字符 串 (不 包括 任何 字符 的 
字符 串 ) 或 者 undefina “REL, 一 个 “没有 值 ”的 值 ， 与 空 字符 捉 类 似 ,但 测试 时 两 
者 不 相等 )。 表 7-5 给 出 了 若干 例子 。 


详细 地 说 ， 匹 配 完成 之 后 会 设置 这 些 变量 ; 


$& ”正则 表达 式 所 匹配 文本 的 副本 。 从 效率 方面 考虑 (参见 第 356 页 的 讨论 ) ， 最 好 不 要 使 
用 这 个 变量 (还 包括 下 面 介绍 的 $`、 和 $ )。 一 旦 匹配 成 功 ，$& 就 不 会 是 未 定义 状态 ， 
尽管 它 可 能 是 空 字符 串 。 
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表 7-5: 匹配 后 特殊 变量 的 说 明 


如 下 匹配 完成 之 后 


12 a 4 4 31 
"Pi is 3.14159, roughly" =~ m/\b((tasty| fattening) | (\d+(\.\d*)?))\b/; 


设置 了 下 面 的 特殊 变量 
we. ee 














3 1 全 
















匹配 文本 之 前 的 文本 


Pi*is"* 


$& 匹配 文本 3.14159 
$’ 匹配 文本 之 后 的 文本 , ‘roughly 
$1 第 1 组 括号 匹配 的 文本 3.14159 
$2 第 2 组 括号 匹配 的 文本 undef 

$3 第 3 组 括号 匹配 的 文本 3.14159 
$4 第 4 组 括号 匹配 的 文本 .14159 

$+ 编号 最 大 的 括号 匹配 的 文本 .14159 
$^N 最 后 结束 的 笑 号 匹配 的 文本 3.14159 


目标 文本 中 各 匹配 开始 位 置 的 偏 移 值 数组 
目标 文本 中 各 匹配 结束 位 置 的 偏 移 值 数组 


(6, 6, undef, 6, 7) 
{13, 13, undef, 13, 13) 


$” 在 目标 文本 中 匹配 开始 之 前 (左边 ) 文本 的 副本 。 如 果 使 用 /g 修饰 符 ， 你 可 以 期 望 $ 
的 起 点 是 开始 尝试 位 置 的 文本 , 但 它 每 次 都 是 从 整个 字符 串 的 开始 位 置 开始 的 。 如果 匹 
配 成 功 ，$* 肯 定 不 会 是 未 定义 状态 。 


S 保存 目标 文本 中 匹配 成 功 文本 之 后 (A) 的 文本 的 副本 。 如 果 匹 配 成 功 ，$ 肯定 不 会 
是 未 定义 状态 。 匹 配 成 功 之 后 ， 字 符 串 "$' se 5$…" 就 是 目标 字符 串 的 副本 ( 注 5)。 


Pie $2, $3、 ... 


对 应 第 1, 2, 3 组 捕获 型 括号 匹配 的 文本 (请 注意 ， 这 里 没有 $0， 因 为 它 是 脚本 的 名 
字 ， 与 正则 表达 式 无 关 )。 如 果 它 们 对 应 的 括号 在 表达 式 中 不 存在 ， 或 者 没有 实际 参与 
匹配 ， 则 设置 为 未 定义 状态 。 


匹配 之 后 就 可 以 使 用 这 些 变量 ， 在 s/…/…/ 中 的 replacement 也 可 以 使 用 。 它 们 还 能 在 
动态 正则 结构 或 者 贬 入 代码 中 使 用 (327)。 在 正则 表达 式 中 使 用 这 些 变量 是 没 多 少 
意义 的 (因为 已 经 有 了 "1 之 类 )。 请 参考 第 303 页 的 “在 正则 表达 式 中 使 用 $1”。 


Aw FI Ow + 的 区 别 可 以 用 来 说 明 $1 的 设置 方式 。 两 个 表达 式 都 能 匹配 同样 的 文 


注 5: 事实 上 ， 即 使 目标 字符 事 是 未 定义 的 ， 但 能 匹配 成 功 (RRK, ATHE), "SSE 
$'" 是 一 个 空 字符 事 ， 而 不 是 未 定义 。 只 有 在 这 种 情况 下 ， 两 者 才 不 一 样 。 
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ee i: 


本 ， 但 是 它们 的 区 别 在 于 括号 内 的 子 表达 式 匹配 的 内 容 。 用 这 个 表达 式 匹 配 字符 串 
“tubby ,第 一 个 表达 式 的 sl WAAL ‘cubby’, 而 第 二 个 表达 式 中 的 $1 RS ‘y’: 
在 (\w)+! 中 ， 加 号 在 括号 外 面 ， 所 以 每 次 迭代 都 会 重新 捕获 ，s1 保留 最 后 的 字符 。 


还 需要 注意 的 是 (x) ?, 和 '(x?) ,的 差别 。 前 一 个 表达 式 中 括号 及 其 捕获 内 容 不 是 必然 
出 现 的 ， 所 以 $1 可 能 是 “x' ,或 者 是 未 定义 ,但 "(x?) ,中 括号 在 匹配 的 外 面 一 一 匹配 
的 内 容 不 是 必然 出 现 的 ， 但 匹配 必须 发 生 。 如 果 整 个 表达 式 匹配 成 功 ， 这 部 分 的 匹配 
必然 会 发 生 , 尽管 x? 匹配 的 是 空 字符 捉 。 所 以 在 '(x?), 中 ,$1 可 能 是 “x' 或 者 是 空 













/:(A2):/ 
"2:" =~ m/:(A)?:/ 
"3sA:" =~ m/:(A?):/ 


"sA:" =~ m/:(A)?:/ 


从 上 表 可 以 看 出 ， 如 果 需 要 添加 括号 来 捕获 文本 ， 如 何 添加 取决 于 我 们 的 意图 。 在 所 
尝 的 例子 中 ， 增 加 的 括号 对 整体 匹配 没有 影响 (整体 匹配 是 不 变 的 ) ， 其 中 唯一 的 区 别 
就 是 $1 设置 的 伴随 效应 。 


表示 $1、$2 等 匹配 过 程 中 明确 设 定 的， 编号 最 大 的 变量 的 副本 。 在 下 面 的 情况 中 会 有 
用 : 


= (EEE: 
未 定义 


=~ Mm/: (\w*) :/ Word 






=~ m/:(\w)*:/ 





$url =~ m{ 
href \s* = \s* # 匹配 "href = "， 然 后 是 它 的 值 ... 
(Pz (nse = # 双 引 号 字符 事 ， 或 者 ... 
I ATT * # 单 引 号 字符 事 ， 或 者 . . . 
| ((*'"<>)+) ) # 非 引 号 形式 的 值 _ 


}ix; 
如 果 没 有 $+， 我 们 可 能 需要 依次 检查 $1、$2 和 $3， 才 能 找 出 明确 设置 的 那个 。 
如 采 正 则 表达 式 中 没有 捕获 型 括号 (或 者 在 匹配 中 没有 用 到 )， 则 这 个 值 为 未 定义 。 


SN 最 后 结束 的 ， 在 匹配 中 明确 设 定 的 括号 匹配 的 文本 的 副本 (明确 设 定 的 $1 等 变量 中 ， 


闭 括 号 在 最 后 )。 如 果 正 则 表达 式 中 没有 捕获 型 括号 (或 者 匹配 中 没有 用 到 )， 则 其 值 
为 未 定义 。 第 344 页 开头 有 个 恰当 的 例子 。 
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第 7 章 : Perl 


@- 和 @+ 


表示 各 捕获 型 括号 所 匹配 文本 的 起 始 和 结束 位 置 在 目标 文本 中 偏 移 值 的 数组 。 使 用 起 
来 可 能 有 点 迷惑 ， 因 为 它们 的 名 字 比 较 怪 异 。 两 个 数组 的 第 一 个 元 素 都 对 应 整体 匹配 。 
也 就 是 说 ， 通 过 $- [0] 访 问 到 的 8- 的 第 一 个 元 素 ， 是 整个 匹配 在 目标 字符 串 中 的 偏 移 
值 ， Ril ; 

$text = "Version 6 coming soon?"; 

Stext =~ m/\d+/; 


S$-[0] 的 值 为 8， 代表 匹配 从 目标 字符 串 的 第 8 个 位 置 开始 (在 Perl 中 ， 偏 移 值 从 0 
开始 )。 


e+ 的 第 一 个 元 素 通过 $+ [0] 访 问 ， 表 示 对 应 匹配 文本 结束 位 置 的 偏 移 值 。 在 上 例 中 其 
值 为 9， 表示 整体 匹配 结束 于 目标 字符 串 的 第 9 个 字符 之 前 。 所 以 ， 如 果 scext 没有 
变化 ，subetr($text，$-[0]，$+[0] - $-[0]) 就 等 于 S&， 但 没有 ss 那样 的 性 能 缺 
陷 (= 了 356)， 下 例 给 出 了 e- 的 简单 用 法 ， 


1 while $line =~ s/\t/' ' x (8 - $-[0] % 8)/e; 
它 会 把 给 定 文本 中 的 制 表 符 (tab) 替换 为 合适 长 度 的 空格 序列 QE 6). 


两 个 数组 中 接 下 来 的 元 素 分 别 对 应 各 捕获 分 组 的 开始 位 置 和 结束 位 置 的 偏 移 值 。$- [11 
和 $+[1] 对 应 $1，$-[2] 和 $+[2] 对 应 $2， 依 次 类 推 。 


这 个 变量 保存 最 近 执行 的 伐 入 代码 的 结果 ， 如 果 和 嵌入 代码 结构 作为 “(? if then | else), 
条 件 语句 (7140) 中 的 证 部 分 ， 则 不 设 定 S*R。 在 正则 表达 式 内 部 (BERA RER 
者 动态 正则 结构 >327 中 ) ， 它 会 自动 根据 匹配 的 各 部 分 进行 本 地 化 处 理 ， 所 以 因为 回 
滴 而 “交还 ”的 代码 对 应 的 $^R 的 值 会 被 放弃 。 换 一 种 说 法 就 是 ， 它 保存 引擎 到 达 当 前 
状态 的 工作 路 径 中 “最 近 ” 的 值 。 


如 果 正 则 表达 式 根据 /g 修饰 符 重复 使 用 ， 那 么 每 次 循环 都 会 重新 设置 这 些 变 量 。 也 就 是 说 
可 以 在 s/…/…/g 中 使 用 $1， 因 为 每 次 匹配 时 它 的 值 都 不 一 样 。 


注 6: 这 段 代 码 的 局 限 在 与 ， 它 只 能 处 理 “ 传 统 ” 西 方 文本 ， 而 无 法 正确 处 理 包 含 “ 枝 ” 之 类 的 


宽 字 和 罕 集 ， 因 为 宽 字 符 集中 显示 一 个 字符 可 能 需要 两 个 以 上 的 位 置 ， 某 些 Unicode 语音 字 
符 ， 例如 吝 ， 也 无 法 处 理 (7107), 
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在 正则 表达 式 中 使 用 $1 


Perl 手册 专门 提 到 , 在 正则 表达 式 外 部 , 不 能 用 \14 反 向 引用 (而 应 该 使 用 $1)。 变 量 $1 对 
应 上 次 成 功 匹 配 中 的 某 个 固定 字符 串 。\1, 则 是 正则 表达 式 元 字符 , CIENS MAH 
时 第 一 组 捕获 型 括号 捕获 的 文本 。 在 NFA 的 回溯 过 程 中 ， 它 的 值 可 能 会 变化 。 

与 之 对 应 的 问题 是 ， 正 则 运算 元 中 是 否 能 够 使 用 $1 SRE. HK, CARRERA 
态 正则 结构 (327) 中 可 用 , 在 其 他 情况 下 就 没什么 意义 。 出 现在 运算 元 中 “表达 式 部 分 ” 


的 $1 与 其 他 变量 一 样 处 理 : 在 匹配 或 替换 操作 开始 时 插值 。 也 就 是 说 ， 对 正则 表达 式 而 言 ， 
$1 与 当前 的 匹配 没什么 关系 ， 它 属于 上 一 次 匹配 。 


qr/ = 运算 符 与 regex WR 


The qi/.../ Operator and Regex Objects 


在 第 2 章 和 第 6 章 已 经 简要 介绍 过 (“76，277) 一 元 运算 符 ar/…/， 其 运算 元 为 正则 表达 
A, JBE regex 对 象 。 返 回 的 对 象 可 以 被 之 后 的 正则 运算 符 用 来 匹配 、 替 换 、 分 割 ， 或 者 可 
以 作为 其 他 的 更 长 表达 式 的 一 部 分 。 


regex 对 象 主要 用 来 把 正则 表达 式 封装 为 一 个 单元 , 构建 大 的 正则 表达 式 , 以 及 提高 效率 (在 
正则 表达 式 编 译 时 提高 控制 能 力 ， 讨 论 见 下 文 )。 


291 页 已 经 介绍 过 ， 用 户 可 以 使 用 自己 的 分 隔 符 ， 例 如 qr{…} 或 者 qr!…!。 它 还 支持 核心 
修饰 符 /i、 /x、/s、/m 和 /0o。 


构建 和 使 用 regex 对 象 


Building and Using Regex Objects 


下 面 的 表达 式 来 自 第 2 章 (776): 
my $HostnameRegex = qr/[-a-z0-9]+(? :\.[-a-z0-9] +)*\.{?: comledulinfo) /i; 


my $HttpUrl = qrt{ 


http:// §$HostnameRegex \b # Hostname 
(?: 
/ [-a-z0-9-:\@&?=-+,.!/~*'&\$]* # 可 能 出 现 的 path 
(?<![.,?!]) # 不 容许 以 [.,?1] 结 是 
) ? 
}ix; 
ifl 
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第 一 行 代码 把 匹配 主机 名 所 用 的 简单 正则 表达 式 封装 为 regex 对 象 ,保存 到 变量 $Hostname- 
Regex 中 。 下 一 行使 用 该 变量 构建 匹配 HTTP URL 的 regex 对 象 ， 保 存 到 SHtcpUrl 中 。 构 
完成 之 后 就 可 以 以 多 种 方式 使 用 ， 例 如 : 
if ($text =~ $HttpUrl) { 


print "There is a URL\n"; 
} 


while ($text =~ m/(S$HttpUrl)/g) í 
print “Found URL: $1\n"; 


用 来 搜索 和 显示 所 有 的 HTPP URL, 
如 果 按 照 第 5 章 的 讲解 (7205) 修改 $SHostnameRegex: 


my SHostnameRegex = ar{ 


# 一 个 或 多 个 点 号 分 陪 部 分 


(?: [a-z0-9]\. | {a-z0-9] [-a-z0-9] {0,61}[a-z0-9]\. ) * 

# BR 

(?: com!ledulgov]/int|/mil|netlorg|biz|infol--:|aero| [a-z] [a-z] ) 
}xi; 


它 的 使 用 方式 与 之 前 的 例子 相同 (开头 没有 o, ERRA '$,， 也 没有 捕获 型 括号 )， 所 以 ， 
我 们 的 替换 不 受 限制 。 这 样 能 得 到 更 准确 的 SHttpUrl 。 


匹配 模式 (即使 不 设置 ) 是 不 可 更 改 的 


qr/…/ 支 持 292 页 介绍 的 核心 修饰 符 。regex 对 象 一 旦 构建 完成 ， 对 应 的 匹配 模式 就 不 能 更 
改 了 ， 即 使 regex 对 象 所 在 的 m/…/ 有 自己 的 修饰 符 也 是 如 此 。 下 面 的 代码 就 不 正确 : 


my S$WordRegex = qr/\b \w+ \b/; # 这 里 忘 了 添加 修饰 村 /x 


if ($text =~ m/*(SWordRegex) /x) { 
print "found word at start of text: $1\n"; 
} 
这 里 希望 用 /x 修饰 SwordRegex 的 匹配 模式 ， 但 是 这 并 不 管用 ， 因 为 在 SwordRegex 生成 时 
修饰 符 〈 即 使 不 设置 ) 被 锁定 在 sr/…/ 中 。 所 以 ， 修 饰 符 必须 在 恰当 的 时 候 使 用 。 


i4 
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下 面 的 代码 则 没有 问题 : 


my SWordRegex = qr/\b \w+ \b/x; # 没 问 题 ! 
if ($text =~ m/*($WordRegex)/) { 
print "found word at start of text: $1\n"; 


} 
现在 来 比较 开始 的 代码 和 下 面 的 代码 : 


my $WordRegex = '\b \w+ \b'; # #if FHS 
if ($text =~ m/*($WordRegex)/x) { 
print "found word at start of text: $1\n"; 
} 
这 段 代 码 设 问 题 ， 尽管 SwordRegex 生成 时 没有 任何 修饰 符 。 因 为 SwordRegex 是 普通 变量 ， 
保存 普通 的 字符 串 ， 用 作 m/…/ 的 插值 。 因 为 各 方面 的 原因 ， 用 字符 串 构建 正则 表达 式 比 
regex 对 象 要 麻烦 得 多 , 比如 在 这 个 例子 中 , 必须 记 住 SwordRegex 必须 和 /x 一 起 使 用 才 行 。 


我 们 也 可 以 只 使 用 字符 串 解决 这 个 问题 ， 只 需要 在 表达 式 中 设 定 模式 修饰 范围 (7135); 


my $WordRegex = '(?x:\b \w+ \b)'; # 普通 字符 事 


if ($text =~ m/*(SWordRegex)/) { 
print “found word at start of text: $1\n"; 
} 


此 时 , m/…/ 的 正则 文字 插值 之 后 , 正则 引擎 接收 到 “((?x:\b*\wr"\b)),， 这 就 是 我 们 期 望 
的 结果 。 


其 实 这 就 是 生成 regex 对 象 的 逻辑 过 程 ， 只 是 regex 对 象 对 于 每 个 模式 修饰 符 ， 都 明确 定义 
T “on” 或 “off ”的 状态 。 用 ar/\b'\w+'\b/x 生 成 '(?x-ism:\b'\w+.\b),。 请 注意 模式 修 
饰 符 的 设 定 (?x-ism:…))， 这 里 启用 了 /x， 禁 止 了 /i、/s 和 /m。 也 就 是 说 , 无论 是 否 指定 
qr/…/ 的 修饰 符 ，regex 对 象 总 是 “ 饥 定 ”在 某 个 模式 下 。 


探究 regex 对 象 


Viewing Regex Objects 


前 面 讨论 了 regex 对 象 综合 正则 表达 式 和 模式 修饰 符 一 一 例如 '(?x-ism:…) 一 一 的 逻辑 过 
程 。 如 果 在 Perl 期 望 接 收 字符 串 的 地 方 使 用 regex 对 象 ，Perl 会 把 它 转换 为 对 应 的 文本 表示 
方式 ， 例 如 : 


% perl -e 'print qr/\b \w+ \b/x, "\n"' 
(?x-ism:\b \w+ \b) 
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这 就 是 第 304 页 的 SHEtcpUrl 的 转换 结果 : 


(?ix-sm: 
http:// (?ix-sm: 
# 一 个 或 多 个 点 号 分 隔 部 分 


(?: [a-z0-9]\. | [a-z0-9] [-a-z0-9] {0,61}[a-z0-9]\. ) * 
# BH 
{?: comledulgovlintlmillnetlorglbizlintol…1iaerolfa-zj[a-z] ) 


) \b # hostname 
(?: 


/ (-a-20-9-:\@&?=+,.!/~*'S\$]* # 可 能 出 现 的 path 
(2?<!(.,2?!]) # AWEVA[., 27!) SSA 


) ? 


) 


把 regex 对 象 转换 为 字符 串 的 功能 在 调试 时 很 有 用 。 


用 regex 对 象 提高 效率 


Using Regex Objects for Efficiency 


使 用 regex 对 象 的 主要 原因 之 一 是 便于 控制 。 为 了 提高 效率 ，Perl 会 把 正则 表达 式 编译 为 内 
部 形式 。 第 6 章 简要 介绍 了 正则 表达 式 编 译 的 一 般 知 识 ， 但 是 更 复杂 的 Perl 相关 问题 ， 包 
括 regex 对 象 之 类 ， 都 在 “正则 表达 式 编译 、/o 修饰 符 、ar/…/ 和 效率 ”(348) 中 详细 
讨论 。 


Match 运算 符 


The Match Operator 
基本 的 匹配 操作 : 


$text =~ m/regex/ 
是 Perl 的 正则 表达 式 应 用 的 核心 。 在 Perl 中 ， 正 则 表达 式 匹 配 操作 需要 两 个 运算 元 ， 其 一 
是 目标 字符 串 ， 其 二 是 正则 表达 式 ， 返 回 一 个 值 。 
匹配 如 何 进行 ， 返 回 什 么 值 ， 取 决 于 匹配 的 应 用 场合 (7294) 及 其 他 因素 。match 运算 符 
非常 方便 一 一 它 可 以 用 来 测试 某 个 正则 表达 式 能 否 匹 配 一 个 字符 串 ， 或 者 从 字符 串 中 提取 
数据 ， 甚 至 是 与 其 他 匹配 运算 符 一 起 将 字符 串 拆 分 为 各 个 部 分 。 虽 然 功能 强大 ， 这 种 便捷 
也 增加 了 人 掌握 的 难度 。 需 要 关注 的 内 容 包括 : 
。 ”如 何 指定 正则 运算 元 。 
。 ”如 何 指定 匹配 修饰 符 ， 以 及 它们 的 意义 。 
。 如何 指定 目标 字符 串 。 
。 ”匹配 的 伴随 效应 。 
。 “匹配 的 返回 值 。 
。 ”能 影响 匹配 的 外 部 因素 。 
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匹配 的 常见 形式 是 : 
StringOperand =~ RegexOperand 


还 有 许多 简便 方式 ， 值 得 注意 的 是 ， 某 些 简便 形式 下 ， 两 个 运算 元 都 不 是 必须 出 现 的 。 本 
节 中 我 们 会 看 到 各 种 形式 的 例子 。 


Match 的 正则 运算 元 


Match ° s Regex Operand 


正则 运算 元 可 以 是 正则 文字 或 者 regex MR (其 实 可 以 是 字符 串 或 者 任意 的 表达 式 ,但 是 这 
样 做 没什么 好 处 ) 。 如 果 使 用 正则 文字 ， 可 以 指定 修饰 符 。 


使 用 正则 文字 


正则 运算 元 通常 是 m/…/ 或 者 就 是 /…/ 内 的 正则 文字 。 如 果 正 则 文字 的 分 隔 符 是 斜 线 或 问号 
(以 问号 做 分 隔 符 的 情况 很 特殊 ， 稍 后 讨论 ) 则 可 以 省 赂 开头 的 m。 为 保持 一 致 ， 我 不 管 是 
否 必要 都 使 用 m。 之 前 介绍 过 ， 如 果 使 用 m， 你 可 以 使 用 自己 的 分 隔 符 (291)。 


使 用 正则 文字 时 ， 可 以 结合 第 292 页 介绍 的 任何 核心 修饰 符 。 匹 配 运 算 符 还 支持 两 个 另外 
的 运算 符 ， /Cc 和 /g， 下 面 马 上 介绍 。 


使 用 regex 对 象 
正则 运算 元 也 可 以 是 gr/…/ 生 成 的 regex 对 象 ， 例 如 : 


my $regex = qr/regex/; 


sess.. 


sesse 


可 以 在 m/…/ 中 使 用 regex 对 象 。 特 殊 的 情况 是 ， 如 果 “ 正 则 文字 ”中 只 包含 一 个 regex 对 
象 的 插值 ， 那 么 它 就 完全 等 同 于 使 用 此 regex 对 象 。 上 面 这 个 例子 也 可 以 写作 : 


if ($text =~ m/S$regex/) { 


这 很 方便 , 因为 它 看 起 来 更 熟悉 , 也 容许 我 们 对 regex 对 象 使 用 /g 修饰 符 (还 可 以 使 用 m/… 
/支持 的 其 他 的 修饰 符 ， 但 这 在 本 例 中 没有 意义 ， 因 为 它们 不 能 覆盖 regex 对 象 内 锁定 的 模 
式 修饰 符 304). 


ili 
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默认 的 正则 表达 式 


如 果 没 有 指定 正则 表达 式 , 例如 m// (或 者 m/$someVar /而 变量 $sSomeVar 为 空 字符 串 或 未 
SL), Wl Perl 会 使 用 此 代码 所 在 的 动态 作用 域 范围 内 最 近 应 用 成 功 的 正则 表达 式 。 以 前 这 
样 很 有 用， 因为 可 以 提高 效率 ， 后 来 因为 regex 对 象 的 发 展 ( 了 303)， 已 经 没什么 意义 了 。 


?…? 的 特殊 匹配 


除了 之 前 介绍 的 正则 文字 的 各 种 分 隔 符 , match 运算 符 还 可 以 使 用 一 种 特殊 的 分 隔 符 一 一 问 
号 。 问 号 分 隔 符 〈 例 如 m?…?) 提供 的 是 相当 生僻 的 功能 ，m?…? 匹 配 成 功 之 后 ， 除 非 在 同 
FER] package 中 调用 reset 函数 ， 否 则 不 会 再 次 匹配 。 按 照 Perl Version 1 的 手册 上 的 说 法 ， 
这 “是 有 用 的 优化 措施 ， 用 于 在 一 组 文件 中 查找 某 段 信息 的 第 一 次 出 现 "， 但 是 不 知 何故 ， 
我 在 现代 Perl 中 从 未 见 过 。 


问号 分 隔 符 的 特殊 情况 类 似 斜 线 分 隔 符 ，m 也 不 是 必须 出 现 的 : ?…? 完 全 等 价 于 m?…?。 


指定 目标 运算 元 


Specifying the Match Target Operand 


常用 来 指定 “搜索 字符 串 ” 的 做 法 是 =~， 例 如 $text =~ m/…/。 请 记 住 ，=~ 既 不 是 赋值 运 
算 符 ， 也 不 是 比较 运算 符 ， 只 是 一 个 看 来 有 趣 的 运算 符 ， 用 来 连接 运算 元 (这 个 表示 法 改 
编 自 awk ) 。 


因为 整个 “expr =- m/…/” 本 身 就 是 一 个 表达 式 ， 我 们 可 以 在 任何 容许 出 现 表达 式 的 地 方 
使 用 ， 例 如 (以 连 线 分 隔 ): 


$text =~ m/…/; # 这 样 做 ， 大 概 是 从 伴随 效应 者 虑 的 


if ($text =~ m/:/) { 
# 如果 匹 配 成 功 ， 执 行 这 些 代码 


$result = ( $text =~ mA/…/ }; # 把 Sresult 置 为 Stext 的 匹配 结果 
$result = $text =~ m/=/ ; # 同上 =- 的 优先 级 高 于 = 
$copy = $text; # 把 $text HMA Scopy... 
Scopy =~ m/*"/; # ... 在 Scopy 上 匹配 
{ $copy = $text ) =~ m/*…/; # 同上 
默认 的 目标 字符 串 


如 果 目 标 字符 串 是 变量 sS_， 则 可 以 省 略 整个 “$_ =~”。 也 就 是 说 ， 默 认 的 目标 字符 串 就 是 


S_e 
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Stext =~ m/regex/; 
的 意思 是 ,“ 把 regex 应 用 到 $text 中 的 文本 , 忽略 返回 值 , 获取 伴随 效应 ”。 如 果 忘 了 写 '-，， 
结果 就 是 : 

$text = m/regex/; 


它 的 意思 是 “对 $_ 中 的 文本 应 用 正则 表达 式 ， 获 取 伴 随 效应 ， 把 返回 的 true/false 值 赋 给 
$text”。 也 就 是 说 ， 下 面 两 者 是 等 价 的 : 


$text = m/regex/; 
$text = ($_ =~ m/regex/); 


有 时 候 使 用 软 认 目标 字符 串 很 方便 ， 尤 其 是 与 其 他 默认 情况 的 结构 (许多 结构 都 有 默认 值 ) 
结合 时 。 下 面 的 代码 就 很 常见 : 


while (<>) 
{ 
if (m/-:-/) { 


serere 


总 的 来 说 ， 依 赖 默认 运算 元 会 增加 无 经 验 程序 员 阅 读 代 码 的 难度 。 


颠倒 match 的 意义 


可 以 用 !~ 来 取代 =~， 对 返回 值 进行 逻辑 非 操作 (马上 会 介绍 这 么 做 的 返回 值 和 伴随 效应 ， 
但 是 对 于 !~， 返 回 值 就 是 true 或 者 false)， 下 面 三 种 办 法 是 等 价 的 : 


if ($text !~ m/**/) 
if (not $text =~ m/*:/) 
unless ($text =~ m/-:-/) 


从 我 个 人 出 发 ,我 喜欢 中 间 的 办 法 。 无 论 选 用 哪 种 办 法 , 都 会 产生 设置 $1 等 的 伴随 效应 。! - 
只 是 判断 “如 果 不 能 匹配 ”的 简便 方式 。 


Match 运算 符 的 不 同 用 途 


Different Uses of the Match Operator 


可 以 从 match 运算 符 返 回 的 true/false 判断 匹配 是 否 成 功 ， 也 可 以 从 成 功 匹 配 中 获取 其 他 的 
信息 ,与 其 他 match 运算 符 结 合 起 来 .match 运算 符 的 行为 主要 取决 于 它 的 应 用 场合 (了 294)， 
以 及 是 否 使 用 了 /g 修饰 符 。 
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普通 的 “匹配 与 否 ” 一 一 scalar context， 不 使 用 /8g 


在 scalar context 中 (例如 if WR), match 运算 符 返回 的 就 是 true/false: 


if ($target =~ m/-/) { 

# 1... 匹配 成 功 后 的 操作 ... 
} else { 

# ... 匹配 失败 后 的 操作 、.. 


} 
也 可 以 把 结果 赋值 给 一 个 scalar 变量 ， 然 后 检查 
my $success = $target =~ m/:*/; 


eres 


sss... 


普通 的 “从 字符 串 中 提取 数据 ”一 一 list context， 不 使 用 /g 


不 使 用 /g 的 list context， 是 字符 串 中 提取 数据 的 常用 做 法 。 返 回 值 是 一 个 list， 每 个 元 素 是 
正则 表达 式 中 捕获 型 括号 内 的 表达 式 捕 获 的 内 容 。 下 面 这 个 简单 的 例子 用 来 从 69/8/31 中 
提取 日 期 : 


my ($year, $month, $day) = $date =~ m{ ^ (\d+) / (\d+) / (\d+) $ }x; 


匹配 的 3 个 数 作为 3 个 变量 (当然 还 包括 $1、$2 和 $3 等 )。 每 一 组 捕获 型 括号 都 对 应 到 返 
回 序列 中 的 一 个 元 素 ， 空 序列 表示 匹配 失败 。 


有 时 候 ， 某 组 捕获 括号 没有 参与 最 终 的 成 功 匹 配 。 例 如 ，m/ (this) | (that) /必然 有 一 组 括 
号 不 会 参与 匹配 。 这 样 的 括号 返回 未 定义 的 值 unaef。 如 果 匹 配 成 功 ， 又 没有 使 用 捕获 型 
括号 ， 在 不 使 用 /g 的 list context 中 ， 会 返回 list(1)。 
List context 可 以 以 各 种 方式 指定 ， 包 括 把 结果 赋值 给 一 个 数组 ， 例 如 : 

my @parts = $text =~ m/*(\d+)-(\d+)-(\d+)$/; 
如 果 match 的 接收 参数 是 scalar 变量 ， 请 将 匹配 的 应 用 场合 指定 为 list context， 这 样 才能 获 
得 匹配 的 某 些 捕 获 内 容 ， 而 不 是 表示 匹配 成 功 与 否 的 Boolean 值 。 比 较 这 两 个 测试 : 


my ($word) = $text =~ m/(\w+)/; 
my $success = $text =~ m/(\w+)/; 
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第 一 个 例子 中 ， 变 量 外 的 括号 导致 my 函数 为 赋值 指定 list context。 第 二 个 例子 没有 括号 ， 
所 以 应 用 场合 为 scalar context, $success 只 得 到 true/false 值 。 


下 面 给 出 了 一 个 更 简单 的 做 法 : 


if ( my ($year, $month, $day) = $date =~ m{* (\d+) / (\d+) / (\d+) S}x ) { 
# 如 果 能 够 匹配 ，S$Syear 等 变量 已 经 赋值 

} else { 
# 如 果 不 能 匹配 ... 

} 


这 次 匹配 发 生 在 list context 中 (由 “my (…) =” 提 供 )， 所 以 序列 中 的 变量 会 根据 对 应 的 
$1, $2 之 类 进行 赋值 。 不 过 , 匹配 完成 之 后 , 因为 整个 组 合 是 在 if 条 件 语句 的 scalar context 


HH, Perl 把 list 转换 为 一 个 scalar 变量 。 它 接收 的 是 list 的 长 度 , 如 果 匹 配 不 成 功 , 长 度 为 0， 
如 果 不 为 0， 则 表示 匹配 成 功 。 


“提取 所 有 匹配 ”一 一 list context， 使 用 /g 


此 结构 的 用 处 在 于 ， 它 返回 一 个 文本 序列 ， 每 个 元 素 对 应 捕获 型 括号 匹配 的 文本 (如 果 没 
有 捕获 型 括号 ， 就 返回 整个 表达 式 匹 配 的 文本 ) ， 但 上 一 节 的 例子 只 能 针对 一 次 匹配 ， 而 这 
种 结构 针对 所 有 匹配 。 


下 面 这 个 简单 的 例子 用 来 提取 字符 串 中 的 所 有 整数 : 
my @nums = $text =~ m/\d+/g; 
如 果 $text 包含 IP Hbht ‘64.156.215.240", enum 会 接收 4 PITH, ‘64’. ‘156’. ‘215’. 


“240 。 与 其 他 结构 相 结合 ， 就 能 很 方便 地 把 IP 地 址 转换 为 8 位 16 进 制 数字 ， 例 如 
“409cd7f0" ， 如 果 需 要 创建 紧凑 的 log 文件 ， 这 很 方便 : 


my $hex_ip = join '', map { sprintf£("%02x", $_) } $ip =~ m/\d+/q; 
下 面 的 代码 可 以 把 它 转换 回来 : 
my $ip = join '.', map { hex($_) } $hex_ip =~ m/../g 


男 一 个 例子 是 匹配 一 行 中 的 所 有 浮 点 数 : 


my @nums = $text =~ m/\d+(?:\.\d+)?1\.\d+/q; 


一 定 要 使 用 非 捕获 型 括号 ， 因 为 捕获 型 括号 会 改变 返回 的 结果 。 下 面 的 例子 说 明了 捕获 型 
括号 的 价值 : 


my @Tags = $Html =~ m/<(\w+)/g; 


eTags 会 保存 $Html 中 依次 出 现 的 各 个 tag， 这 里 假设 每 一 个 “<” 都 有 对 应 的 “>'。 
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下 面 的 例子 使 用 了 多 个 捕获 型 括号 :把 Unix 中 邮箱 联系 人 的 alias 文件 的 内 容 存放 在 一 个 字 
符 串 中 ， 数 据 格式 是 : 


alias Jeff jfriedl@regex.info 
alias Perlbug peri5S-porters@perl.org 
alias Prez president @whitehouse.gov 


为 了 提取 每 一 行 中 的 昵称 (alias) 和 完整 地 址 , 我 们 可 以 使 用 mm/^aliasNve+(\S+) \e+(.+) /m 
(不 使 用 /g)。 在 list context 中 ,返回 的 序列 包括 两 个 元 素 ,例如 ('Jeff', 'jfriedle@regex. 
info')。 现 在 用 /g 匹配 所 有 这 样 的 组 合 ， 得 到 的 序列 是 ; 


{ 'Jeff', ‘jfriedi@regex.info', 'Perlbug', 
‘perl5-porters@perl.org’, ‘Prez’, 'president@whitehouse.gov' ) 


如 果 这 个 序列 恰好 符合 key/value 的 形式 , 我 们 可 以 直接 把 它 存 人 一 个 关联 数组 (associative 


array ) 。 
my talias = $text =~ m/*alias\s+(\S+) \s+(.+)/mg; 


返回 之 后 ， 可 以 用 $alias{Jeff} 访 问 'Jeff' 的 完整 地 址 。 


和 迭代 匹配 : Scalar Context， 使 用 /g 


Iterative Matching: Scalar Context, with /g 


scalar context 中 ，m/…/g 是 个 特殊 的 结构 。 和 正常 的 m/…/ 一 样 ， 它 只 进行 一 次 匹配 ,但 是 

和 list context 中 的 m/…/g 一 样 ， 它 会 检查 之 前 匹配 的 发 生 位 置 。 每 次 在 scalar context 中 使 

用 m/…/g 一 一 例如 在 循环 中 ， 它 会 寻找 “下 一 个 ”匹配 。 如 果 失 败 ， 就 会 重 置 “ 当 前 位 置 
(current position)”， 于 是 下 一 次 应 用 从 字符 串 的 开头 开始 。 


这 里 有 个 简单 的 例子 ; 


$text = "WOW! This is a SILLY test."; 

$text =~ m/\b([a -z]+\b)/g; 

print "The first all-lowercase word: $1\n"; 
$text =~ m/\b([A-2Z]+\b) /g; 

print "The subsequent all-uppercase word: $1\n"; 


有 两 次 匹配 是 在 scalar context 中 使 用 /g 进行 的 ， 结 果 为 : 


The first all-lowercase word: is 
The subsequent all-uppercase word: SILLY 


后 两 次 匹配 配合 起 来 ， 前 者 把 “当前 位 置 ”设置 到 匹配 的 小 写字 母 单词 之 后 ， 第 二 个 读 取 
这 个 位 置 ， 在 后 面 寻 找 大 写字 母 单词 。 对 两 个 匹配 来 说 ，/g 都 是 必须 的 ， 这 样 匹 配 才能 注 
意 到 “当前 位 置 "， 所 以 如 果 任 何 一 个 没有 使 用 /g， 第 二 行 会 指向 “wow”。 
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scalar context 中 的 /9 匹配 非常 适合 用 作 while 循环 的 条 件 : 


while ($ConfigData =~ m/*(\w+)=(.*)/mg) { 
my ($key, $value) = ($1, $2); 


serere 


最 终 会 找到 所 有 的 匹配 ， 但 是 while 的 循环 体 是 在 匹配 之 间 (或 者 说 ， 在 每 次 匹配 之 后 ) 
执行 。 一 旦 某 次 匹配 失败 ， 结 果 就 是 false， 然 后 while 循环 结束 。 同 样 ， 一 旦 失败 ，/g 状 
态 会 重 置 ， 也 就 是 循环 结束 之 后 的 /g 匹配 会 从 字符 串 的 开头 开始 。 


比较 : 


while (Stext =~ m/(\d+)/) { # RAR: 
print "found: $1\n"; 


和 


while (Stext =~ m/(\d+)/g) { 
print "found: $1\n"; 
} 
唯一 的 区 别 是 /g， 但 是 这 区 别 不 可 小 视 。 如 果 $text 包含 之 前 那个 IP 地 址 ， 第 二 个 程序 给 
出 我 们 期 望 的 结果 : 


found: 64 

found: 156 

found: 215 

found: 240 
相反 ， 第 一 个 程序 不 断 地 打印 “founa: 64”, 不 会 终止 。 不 使 用 /g， 就 意味 着 “找到 $text 
中 第 一 个 '(\ad+),”， 也 就 是 “64' ,无论 匹配 多 少 次 都 是 如 此 。 添 加 /9g 之 后 ， 它 变 成 了 “ 找 
到 $text 中 的 下 一 个 '(\d+);”， 依 次 找到 各 个 数字 。 


“当前 匹配 位 置 ” 和 pos) RR 


Perl 中 每 个 字符 串 都 有 对 应 的 “当前 匹配 位 置 (current match position)”, 传动 装置 会 从 这 里 
开始 第 一 次 匹配 的 尝试 。 这 是 字符 串 的 属性 之 一 ， 而 与 正则 表达 式 无 关 。 在 字符 串 创建 或 
者 修改 时 ,“ 当 前 匹配 位 置 ”会 指向 字符 串 的 开头 , 但 是 如 果 /g 匹配 成 功 ， 它 就 会 指向 本 次 
匹配 的 结束 位 置 。 下 一 次 对 字符 串 应 用 /g 匹配 时 ， 匹 配 会 从 同样 的 “当前 匹配 位 置 ”开始 。 
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可 以 通过 pos (…) 函数 得 到 目标 字符 串 的 “当前 匹配 位 置 "， 例 如 : 


my $ip = "64.156.215.240"; 
while ($ip =~ m/(\d+)/g) { 

printf “found ‘$1' ending at location %d\n", pos($ip); 
} 


结果 是 : 


found '64' ending at location 2 

found '156' ending at location 6 

found '215' ending at location 10 

found '240' ending at location 14 
( 记 住 ， 字 符 串 的 下 标 是 从 0 开始 的 ， 所 以 “location 2” 就 是 第 3 个 字符 之 前 的 位 置 )。 在 
/9g 匹配 成 功 之 后 ，$+[0] (8+ 的 第 一 个 元 素 了 302) 就 等 于 目标 字符 串 中 的 pos, 


pos () 函数 的 默认 参数 是 match 运算 符 的 默认 参数 ， 变量 $_。 


预 设 定 字 符 串 的 pos 


pos () 的 真正 能 力 在 于 , 我 们 可 以 通过 它 来 指定 正则 引擎 从 什么 位 置 开 始 匹 配 (当然 是 针对 
/g 的 下 一 次 匹配 ) 。 我 在 Yahoo! 的 时 候 ， 要 处 理 的 Web 服务 器 log 文件 的 格式 是 ， 包 含 32 
字 节 的 定 长 数据 ， 然 后 是 请 求 的 页 面 ， 然 后 是 其 他 信息 。 提 取 请 求 页 面 的 办 法 是 “.{32)，， 
跳 过 开头 的 定 长 数据 : 
if ($logline =~ m/*.{32}(\S+)/) { 
$RequestedPage = $1; 
} 
这 种 硬 办 法 不 够 美观 ， 而 且 要 强迫 正则 引擎 处 理 前 32 个 字 节 。 如 果 我 们 亲自 动手 ， 代 码 会 
好 看 得 多 ， 效 率 也 高 得 多 ; 
pos(Slogline) = 32; # 请 求 页 的 信息 从 第 33 NFR... 
if ($logline =~ m/(\S+)/g) { 
SRequestedPage = $1; 
} 
这 个 程序 好 些 ， 但 还 不 够 好 。 这 个 正则 表达 式 从 我 们 规定 的 位 置 开 始 ， 而 在 此 之 前 不 需要 
匹配 ， 这 一 点 与 上 个 程序 不 同 。 如 果 因 为 某 些 原因 ,第 32 个 字符 不 能 由 "5 匹配， 前 面 那 
个 程序 就 会 匹配 失败 ， 但 是 新 程序 因为 没有 销 定 到 字符 串 的 特殊 位 置 ， 会 由 传动 装置 启动 
驱动 过 程 。 也 就 是 说 ， 它 会 错误 地 返回 一 个 人 \s+, 在 字符 串 后 面部 分 的 匹配 。 幸 好 ,在 下 一 
节 我 们 会 看 到 ， 这 个 问题 很 容易 修复 。 


二 
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使 用 \G 


元 字符 \G 的 意思 是 “锁定 到 上 一 次 匹配 结束 位 置 "。 这 正 是 上 一 节 中 我 们 希望 解决 的 问题 。 


pos(Slogline) = 32; # 设 定 “当前 位 置 ” 从 第 32 个 字符 开始 , 所 以 从 此 处 开始 匹配 ... 
if (Slogline =~ m/\G(\S+)/q) 
{ 
SRequestedPage = $1; 
} 


\G 告诉 传动 装置 ，“ 不 要 启动 驱动 过 程 ， 如 果 在 此 处 匹配 不 能 成 功 ， 就 报告 失败 ”。 
前 面 几 章 曾 经 介绍 过 \Gi: 第 3 章 有 简单 介绍 ( 130) ， 更 复杂 的 例子 在 第 5 章 (7212), 


请 注意 , 在 Perl H, 只 有 "6 出 现在 正则 表达 式 开头 , 而 且 没 有 全 局 性 多 选 结构 的 情况 下 ， 
结果 才 是 可 预测 的 。 第 6 章 的 优化 CSV 解析 程序 的 例子 中 (也 271)， 正 则 表达 式 以 
\G(?:^1,)…J 开 头 。 如 果 更 严格 的 “能 够 匹配 , 就 没 必 要 检查 八 Gj, 所 以 你 可 能 会 把 它 改 
为 (?:^1\G,)…。 不幸 的 是 ， 在 Perl 中 这 样 行 不 通 ， 其 结果 不 可 预测 ( 注 7)。 


使 用 /gc 进行 “Tag-team” 匹 配 


正常 情况 下 ，m/…/g 匹配 失败 会 把 目标 字符 申 的 pos 重 置 到 字符 串 的 开头 ， 但 给 /g 添加 /vc 
之 后 会 造成 一 种 特殊 的 效果 : 匹配 失败 不 会 重 置 目标 字符 串 的 pos (/c 离 不 开 /g， 所 以 我 
一 般 使 用 /gc)。 


m/…/gc 最 常见 的 用 法 是 与 \G,-- 起 , 创建 “词法 分 析 器 ”, 把 字符 串 解析 为 各 个 记号 (token)。 
下 例 简要 说 明了 如 何 解析 Shtml 中 的 HTML 代码 : 


while (not $html =~ m/\G\z/gc) # 在 全 部 检查 完 之 前 ... 
{ 


if ($html =~ m/\G( <[^>]+> )/xgc){ print "TAG: $1\n" } 
elsif ($html =~ m/\G( &\we; )/xgc) { print "NAMED ENTITY: $i\n" } 
elsif ($html =~ m/\G( &\#\d+; )/xgc) { print "NUMERIC ENTITY: $1\n"} 
elsif ($html =~ m/\G( [4<>&\n]+)/xgc) { print "TEXT: $1\n" } 
elsif ($html =~ m/\G \n /xgc){ print "NEWLINE\n" } 
elsif ($html =~ m/\G( . )/xgc){ print "ILLEGAL CHAR: $1\n" } 


else { 
die "$0: oops, this shouldn't happen!"; 
} 
} 


注 7: 在 大 多 数 支持 G1 流派 中 这 样 部 没有 问题 ,即便 如 此 ,我 一 般 也 不 推荐 使 用 它们 ， 因 为 把 
\GI 放 在 正则 表达 式 开 头 带 来 的 收益 大 于 只 在 某 些 情况 下 测试 、G) 的 收益 (7246), 
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每 个 正则 表达 式 的 粗 体 部 分 匹配 一 种 类 型 的 HTML 结构 。 从 当前 位 置 开始 ， 依 次 检查 每 一 
个 正则 表达 式 (使 用 /gc)， 但 是 只 能 在 当前 位 置 尝试 匹配 (因为 使 用 了 "\G1)。 按 照 顺序 依 
次 检查 各 个 正则 表达 式 ， 直 到 找到 能 够 匹配 的 结构 为 止 ， 然 后 报告 。 之 后 把 $html 的 pos 
指向 下 一 个 记号 的 开始 ， 进 入 下 一 轮 循环 的 搜索 。 


循环 终止 的 条 件 是 m/\G\z/gc 能 够 匹配 ， 即 当前 位 置 (Ac) 指向 字符 串 的 末尾 (Az). 


有 一 点 要 注意 ， 每 轮 循环 必须 有 一 个 匹配 。 否 则 (而且 我 们 不 希望 退出 ) 就 会 进入 无 穷 特 
环 ， 因 为 shcml 的 pos 既 不 会 变化 也 不 会 重 置 。 对 现在 的 程序 来 说 ， 最 终 的 else 分 支 永远 
不 会 调用 , 但 是 如 果 我 们 希望 修改 这 个 程序 (马上 就 会 这 么 做 ), 或 许 会 引入 错误 , 所 以 else 
分 支 是 有 必要 保留 的 。 对 目前 这 个 程序 来 说 ， 如 果 接 收 预 料 之 外 的 数据 (例如 “<>')， 会 
在 每 次 遇 到 预料 之 外 的 字符 时 ， 就 发 出 一 条 警报 。 


另 一 点 需要 注意 的 是 各 表达 式 的 检查 顺序 , 例如 把 \c( .)， 作为 最 后 的 检查 。 也 可 以 来 看 下 
面 这 个 识别 <script> 代 码 的 例子 ， 


$html =~ m/\G ( <script[^>]*>.*?</script> ) /xgcsi 


哇 ， 这 里 使 用 了 5 个 修饰 符 ! 为 了 正常 运行 ， 我 们 必须 把 它 放 在 对 字符 串 进行 第 一 次 
<[^*>]+>j 的 匹配 之 前 。 和 否则 < [^>]+>) 会 匹配 开头 的 <script> 标 签 , 这 个 表达 式 就 没 法 运 
FT. 

第 3 章 还 介绍 了 关于 /gc 的 更 高 级 的 例子 (7132), 


Pos 相关 问题 总 结 







下 面 是 match 运算 符 与 目标 字符 串 的 pos 之 间 互 相 作 用 的 总 结 : 






字符 事 起 始 位 置 (忽略 os) 
FH Pi pos 位置 匹配 结束 位 置 的 偏 移 值 






同样 , 只 要 修改 了 字符 串 , pos 就 会 重 置 为 undef (也 就 是 初始 值 , 指向 字符 串 的 起 始 位 置 ) 。 


Match 运算 符 与 环境 的 关系 


The Match Operator ”s Environmental Relations 


下 面 几 节 将 总 结 我 们 已 经 见 到 的 ，match 运算 符 与 Perl 环境 之 间 的 互相 影响 。 
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match 运算 符 的 伴随 效应 


通常 ， 成 功 匹 配 的 伴随 效应 比 返回 值 更 重要 。 事 实 上 ， 在 void context 中 使 用 match 运算 符 
(这 样 甚 至 不 必 检 查 返 回 值 )， 只 是 为 了 获取 伴随 效应 (这 种 情况 类 似 scalar context)。 下 面 
总 结 了 成 功 匹 配 的 伴随 效应 : 


> “匹配 之 后 会 设置 $S1 和 e+ 之 类 变量 ， 供 当前 语法 块 内 其 他 代码 使 用 (7299), 
。 设置 默认 正则 表达 式 ， 供 当前 语法 块 内 其 他 代码 使 用 (2308), 


© ”如果 m?…? 能 够 匹配 ， 它 (也 就 是 m?…? 运 算 符 ) 会 被 标记 为 无 法 继续 匹配 ， 至 少 在 同 
样 的 package 中 ， 不 调用 reset 就 无 法 继续 匹配 (308)。 


当然 ， 这 些 伴随 效应 只 能 在 匹配 成 功 时 发 生 ， 不 成 功 的 匹配 不 会 影响 它们 。 相 反 ， 下 面 的 
伴随 效应 在 任何 匹配 中 都 会 发 生 : 


。 目标 字符 串 的 pos 会 指定 或 者 重 置 (7313), 


。 如果 使 用 了 /o, 正则 表达 式 会 与 这 个 运算 符 “ 融 为 一 体 (fuse)” ,不 会 重新 求 值 (evaluate， 
”352), 


match 运算 符 的 外 部 影响 


match 运算 符 的 行为 会 受到 运算 元 和 修饰 符 的 影响 。 下 面 总 结 了 影响 match 运算 符 的 外 部 因 
素 : 
应 用 场合 context 


match 运算 符 的 应 用 场合 (scalar、list， 或 者 void) 对 匹配 的 进行 、 返 回 值 和 伴随 效应 
有 重要 影响 。 
pos (=) 


目标 字符 串 的 pos (由 前 一 次 匹配 显 式 或 隐 式 设 定 ) 表示 下 一 次 /g 匹配 应 该 开始 的 位 
a, 同时 也 是 ‘NG: 匹配 的 位 置 。 


默认 表达 式 
如 果 提 供 的 正则 表达 式 为 空 ， 就 使 用 默认 的 表达 式 (7308), 
study 


对 匹配 的 内 容 或 返回 值 没 有 任何 影响 ， 但 如 果 对 目标 字符 串 调用 此 函数 ， 匹 配 所 花 的 
时 间 更 少 (也 可 能 更 多 )。 参 考 “Study HR” (7359), 


m?**…? 和 和 reset 


m?…? 运 算 符 有 一 个 看 不 见 的 “已 /未 匹配 ”状态 ， 在 使 用 m?…? 匹 配 或 者 reset 时 设 
Æ (7308), 
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在 context 中 思考 (不 要 忘记 context) 


在 match 运算 符 讲解 结束 之 前 ， 我 要 提 几 个 问题 。 尤 其 是 ， 在 while、if 和 foreach 控制 
结构 中 发 生变 化 时 ， 确 实 需要 保持 头脑 清醒 。 请 问 ， 运 行 下 面 的 程序 会 得 到 什么 结果 ? 


while ("Larry Curly Moe" =~ IPANw+/G) { 
print “WHILE stooge is S&.\n"; 

} 

print "\n"; 


if ("Larry Curly Moe" =~ m/\w+/q) { 
print "IF stooge is $&.\n"; 


print "\n"; 
foreach ("Larry Curly Moe" =~ m/\w+/g) { 


print "FOREACH stooge is $&.\n"; 
} 


这 有 点 儿 难 度 ， 令 请 翻 到 下 页 查看 答案 。 


Substitution 运算 符 
The Substitution Operator 
Perl 的 substitution 运算 符 a/…/…/ 不 但 能 够 匹配 ,还 能 够 替换 匹配 的 文字 。 通常 的 形式 是 : 


$text =~ s/regex/replacement/modifiers 


简单 来 说 ，regex 匹配 的 文本 会 替换 为 replacement 的 值 。 如 果 使 用 了 /g， 这 个 正则 表达 式 
会 重复 应 用 到 文本 中 进行 匹配 ， 每 次 匹配 的 内 容 都 会 被 替换 。 


与 match 操作 一 样 ， 如 果 目 标 字 符 串 在 变量 $S_ 中 ， 上 有 目标 运算 元 和 =-~ 都 不 是 必须 的 。match 
运算 符 可 以 省 略 m， 而 substitution 不 能 省 略 s。 


我 们 已 经 看 到 ，match 运算 符 是 非常 复杂 的 一 一 它 的 工作 原理 ， 它 的 返回 值 ， 都 取决 于 它 所 
在 的 应 用 场合 ， 目 标 字符 串 的 pos， 以 及 使 用 的 修饰 符 。 相 反 ，substimtion 运算 符 很 简单 ， 
它 返回 的 信息 是 不 变 的 (表示 替换 的 次 数 ) ， 影 响 它 的 修饰 符 也 很 好 理解 。 


你 可 以 使 用 第 292 页 介绍 的 所 有 核心 修饰 符 , 但 是 substituion 运算 符 还 支持 另外 两 个 修饰 符 ， 
/g， 以 及 马上 将 要 介绍 的 /e。 


ii 
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AS 


运算 元 replacement 
The Replacement Operand 


在 普通 s/…/…/ 中 ，replacement 紧 跟 在 regex 之 后 ，m/…/ 使 用 两 个 分 隔 符 ， 而 这 里 要 使 用 
3 个 。 如 果 正 则 表达 式 使 用 对 称 的 分 隔 符 〈 例 如 <…>) ， 则 replacement 有 自己 的 一 对 分 隔 符 

(这 样 总 共 就 有 4 个 分 隔 符 ) 。 举 例 来 说 , s{…}{…} 和 s[…]/…/ 和 s<…>'…' 都 是 合法 的 。 
这 种 情况 下 ， 两 对 分 隔 符 可 以 用 空白 字符 分 隔 ， 如 果 使 用 了 空白 字符 ， 还 可 以 添加 注释 。 
对 称 的 分 隔 符 通常 在 /x 或 /e 中 使 用 。 


$text =~ Bf 

ARHAR, K HHA, UA... 
} { 

.. .对 一 段 Perl 代码 求 值 ， 把 结果 作为 replacement... 
}ex; 


请 注意 区 分 regex 和 replacement, regex 会 按照 正则 表达 式 的 方式 来 解析 ， 有 自己 的 分 隔 符 

(7291), replacement 则 会 当 作 普通 的 双 引 号 字符 捉 来 解析 和 求 值 (evaluate) 。 求 值 会 在 
匹配 之 后 进行 (如 果 使 用 了 /g, 每 次 匹配 之 后 都 会 求 值 ), 所 以 $1 之 类 的 变量 能 够 指向 对 应 
的 匹配 内 容 。 


在 下 面 两 种 情况 下 ，replacement 不 会 按照 双 引 号 字符 串 来 解析 : 
。 replacement 的 分 隔 符 是 单 引 号 ， 此 时 作为 单 引 号 字符 串 ， 不 会 进行 变量 插值 ， 


。 (AT /e 修饰 符 (下 一 节 讨 论 ) replacement 会 作为 一 小 段 Perl 代码 而 不 是 双 引 号 字 
符 申 。 这 一 小 段 Perl 代码 会 在 每 次 匹配 之 后 执行 ， 结 果 作为 replacement, 


/e 修饰 符 


The fe Modifier 


/e 修饰 符 会 把 replacement 作为 一 段 Perl 代码 来 进行 求 值 ， 这 就 类 似 eval {…}。 代 码 装 载 
时 ， 首先 会 检查 这 段 代码 的 语法 ， 确 保 没 有 错误 ,但 是 每 次 匹配 之 后 都 会 对 代码 重新 求 值 。 
每 次 匹配 之 后 ，replacement 都 会 在 scalar context 中 重新 求 值 ， 结 果 作 为 replacement。 下 面 
有 个 简单 的 例子 : 


$text =~ gg/-time-/localtime/ge:; 


在 scalar context H, ESH Perl 的 Localtime 函数 的 结果 (也 就 是 返回 表示 当前 时 间 的 文 
Æ, ján “Mon Sep 25 18:36:51 2006”) 替换 -time-i。 


因为 求 值 是 每 次 匹配 之 后 进行 的 ， 我 们 可 以 通过 $1 等 变量 引用 匹配 的 内 容 。 例 如 ，URL 中 
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> 318 页 测验 的 答案 
318 页 代码 的 结果 : 


WHILE stooge is Larry. 


WHILE stooge is Curly. 
WHILE stooge is Moe. 


IF stooge is Larry. 


FOREACH stooge is Moe. 

FOREACH stooge is Moe. 

FOREACH stooge is Moe. 
tiz%, dof foreach 循环 中 的 print 引用 了 5S_ 而 不 是 S&， 结 果 就 会 与 while 的 一 
样 。 在 这 个 foreach 中 ，m/…/g 返回 的 ('Larry'，'Curly'，'Moe') 并 没有 使 用 。 
相反 倒是 使 用 了 伴随 效应 中 的 S&， 这 表示 程序 有 错误 ， 因 为 list context 的 伴随 效应 ， 
m/…/g 并 不 常用 。 





不 容许 出 现 的 特殊 字符 ， 可 以 编码 为 百 分 号 “%” 加 两 位 十 六 进 制 数 的 形式 。 为 了 编码 所 有 
这 种 字符 ， 可 以 这 样 : 


Surl =~ s/([*a-zA-Z0-9))/sprint£ ('%%*%02x',ord($1))/ge; 
下 面 的 程序 可 以 用 来 解码 : 
$url =~ Ss/%([0-9a-f] [0-9a-f])/pack("C", hex($1))/ige; 


简单 地 说 ，sprintf('%%%02x' ，ord(character) ) 把 字符 转换 为 对 应 的 URL Be, M 
pack("c", value) 的 作用 相反 ， 请 参考 你 常用 的 Perl 文档 获取 更 多 信息 。 


多 次 使 用 /e 


通常 情况 下 ， 对 单个 运算 符 多 次 使 用 同一 修饰 符 没有 特殊 意义 (只 有 让 读者 更 困惑 )， 但 是 
重复 /e 修饰 符 却 会 改变 replacement 的 替换 过 程 。 正 常情 况 下 , replacement 会 进行 一 次 求 值 ， 
但 是 如 果 “e” 的 数目 多 于 1 个 ， 则 Perl 又 会 对 求 值 的 结果 进行 求 值 ， 如 此 一 直 进 行 下 去 ， 
求 值 的 次 数 与 “e ”的 数目 一 样 多 。 或 许 它 的 主要 价值 是 用 作 比 较 Perl 代码 复杂 性 的 测试 。 


不 过 此 功能 并 非 完全 无 用 。 如 果 需 要 手动 进行 变量 插值 〈 例 如 从 配置 文件 读 和 字符 串 )。 也 
就 是 说 ， 有 一 个 字符 种 “…svar… ， 我 们 希望 把 “sSvar” 替 换 为 svar 的 值 。 
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简单 的 办 法 是 : 
Sdata =~ s/(\$[a-zA-2_]\w*) /Sl/eeg; 


如 果 不 使 用 /e， 则 会 替换 匹配 的 “svar ”自身 ， 这 没什么 用 。 使 用 一 个 /e,， 会 对 $1 重新 求 
值 ， 得 到 “$var' ， 这 样 也 没什么 意义 ， 同 样 是 用 匹配 的 文本 替换 自身 。 但 是 如 果 使 用 两 个 
/e， 则 “$var” 会 重新 求 值 ， 得 到 内 容 ， 这 样 就 模拟 了 变量 插值 。 


应 用 场合 与 返回 值 


Context and Return Value 


根据 context 和 /g MARMARA, match 运算 符 会 返回 不 同 的 值 。 不 过 ，substitution 运算 符 
没有 这 么 复杂 一 一 它 返回 的 要 么 是 替换 发 生 的 次 数 ， 要 么 是 空 字符 串 ， 表 示 没 有 发 生 任何 
替换 。 


为 使 用 方便 ,返回 值 为 Boolean 时 (例如 在 if 条 件 语句 中 ) ， 只 要 发 生 了 替换 ,返回 值 就 为 
true, false 表示 没 发 生 替 换 。 


Split 运算 符 


The Split Operator 


功能 多 样 的 split 运算 符 ( 在 不 那么 严格 的 时 候 , 人 们 通常 称 其 为 函数 ) 常 被 视 为 list context 
中 mrg (7311) 的 对 立 物 。 后 者 返回 表达 式 匹 配 的 文本 ， 而 split 返回 由 表达 式 匹配 
的 文本 分 隔 的 文本 。 把 $text =~ m/ :/g 应 用 到 'To.SYS:225558:95-10-03:-a-sh:optional， 
中 ， 返 回 四 个 元 素 的 list: 

Pata Sete Nee hE 
这 似乎 没什么 用 ， 但 是 split (/:/，s$text) 返 回 5 个 元 素 的 list: 

('IO.SYS', '225558', '95-10-03', '-a-sh', ‘optional' ) 
两 个 例子 都 告诉 我 们 ，: 匹配 了 4 次 。 使 用 split, 这 4 次 匹配 把 目标 字符 串 的 副本 分 隔 为 
5 段 ， 返 回 包含 5 个 字符 串 的 list, 
这 个 例子 只 用 单个 字符 分 隔 目 标 字 符 串 ， 其 实 我 们 可 以 使 用 任何 正则 表达 式 : 


@Paragraphs = split(m/\s*<p>\s*/i, $html); 


它 会 按照 <p> 或 者 <P> (两 边 可 能 有 空白 字符 ) 把 shtml 中 的 HTML 代码 分 隔 开 来 。 你 甚至 
可 以 按 位 置 分 隔 : 


@Lines = split(m/*/m, $lines); 


把 字符 串 按 行 切 分 。 
对 最 简单 形式 的 数据 来 说 ，split 非常 有 用 也 很 容易 理解 。 不 过 ， 因 为 存在 许多 参数 、 特 


ill 
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殊 情 况 和 特殊 情形 ， 事 情 会 变 得 复杂 。 在 深入 这 些 细 节 之 前 ， 先 给 出 两 个 特别 有 用 的 例子 : 


。 ”特殊 的 match 运算 符 //， 会 把 目标 字符 捉 切 分 为 单个 字符 ， 也 就 是 说 ，eplit (//， 
"short test") 得 到 10 AEH list: ("gs", "h", "o", ..., "8", "t")。 


。 ”特殊 的 match 运算 符 "… (包含 单个 空格 的 普通 字符 串 ) 把 目标 字符 串 按照 空白 字符 
切 分 ， 等 于 使 用 m/ 八 s+/， 只 是 会 忽略 开头 和 结尾 的 空白 字符 。 这 样 ，split("…"， 


"a'ghort***test"…") Gxl—A EAR. ‘a’, ‘short’ Ñ ‘test’, 
稍 后 讨论 各 种 特殊 情况 ， 我 们 先 来 看 基础 的 部 分 。 


Split 基础 知识 


Basic Split 


split 运算 符 看 起 来 像 函 数 ， 它 接收 3 个 参数 : 


split(match operand, target string, chunk-limit operand) 
括号 是 可 选 的， 未 提供 的 运算 元 会 设置 为 默认 值 (本 节 稍 后 讨论 )。 
split 总 是 在 list context 中 使 用 ， 常 用 的 模式 包括 : 


($varl, S$var2, $var3, **) = split{=); 
@array = Ssplit(.…); 


nae 


match 运算 元 


运算 元 match 有 几 种 特殊 情况 ， 不 过 它 通常 等 价 于 match 操作 中 的 regex 运算 元 。 也 就 是 
说 ， 你 可 以 使 用 /…/ 和 mf{…} 之 类 的 形式 ， 它 可 以 是 regex 对 象 ， 或 者 任何 能 够 求 值 为 字符 
串 的 表达 式 。 它 只 支持 第 292 页 介绍 的 核心 修饰 符 。 


如 果 继 续 要 用 括号 来 分 组 ,请 务必 使 用 非 捕获 型 括号 (?:…),。 我 们 稍 后 将 会 看 到 , 在 split 
中 使 用 捕获 型 括号 会 触发 极 特殊 的 功能 。 


target string 运算 元 


target string 只 用 于 检测 ， 绝 不 会 被 修改 。 如 果 没 有 设 定 ， 默 认 使 用 $_。 


E 
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chunk-limit 运算 元 

chunk-limit 运算 元 的 主要 功能 是 设 定 split 切 分 字符 串 的 数目 上 限 。 对 上 面 的 例子 中 同样 
的 目标 字符 申 调 用 split(/:/, $text, 3)48]: 


( 'IO. SYS‘, '225558', '95-10-03;-a-sh:optional' } 


这 告诉 我 们 ，/ : /匹配 两 次 之 后 split 会 终止 , 产生 所 需 的 3 段 。 它 可 能 可 以 匹配 更 多 的 次 
数 ， 但 这 里 不 需要 ， 因 为 存在 段 的 数目 限制 。 设 定 的 数目 将 作为 上 限 ， 所 以 最 多 只 能 返回 
规定 数目 的 元 素 〈 除 非 正则 表达 式 包含 捕获 型 括号 ， 后 文 会 论 及 )。 得 到 的 元 素数 目 可 能 少 
于 上 限 ， 如 果 得 到 的 分 段 少 于 规定 的 数目 ， 也 不 会 有 多 余 的 内 容 来 “填充 。 对 于 示例 所 用 
的 数据 ，split(/:/，$text，99) 返 回 的 list 只 有 5 个 元 素 。 不 过 ，split(/:/， $text) 
和 split (/:/,$text，99) 有 重要 的 区 别 ， 这 里 暂时 还 看 不 出 来 一 一 请 记 住 这 一 点 ， 稍 后 
我 们 会 仔细 讲解 。 


记 住 ，chunk-limit 运算 元 指向 的 是 各 匹配 之 间 的 分 段 , 而 不 是 匹配 的 数目 本 身 。 否 则 ， 前 面 
那个 上 限 为 3 的 例子 就 应 该 得 到 这 个 : 


('IO.SYS', '225558 ', ‘'95-10-03', '-a-sh:optional' ) 
这 不 是 程序 运行 的 结果 。 
这 里 谈 谈 效 率 : 假设 只 希望 取 开 头 的 几 个 元 素 ， 例 如 : 


($filename, $size, $date) = split(/:/, $text); 


为 了 提高 效率 ， 在 需要 的 元 素 赋值 之 后 ，Perl 会 停止 split 操作 。 它 会 自动 把 chunk-limit 
设置 为 list 的 元 素 个 数 +1。 


深入 split 

从 我 们 接触 过 的 例子 来 看 ，split 很 容易 使 用 ， 但 有 三 个 特殊 的 问题 增加 了 它 实 践 起 来 的 
复杂 程度 : 

。 BECK. 

。 ”特殊 的 regex 运算 符 。 

。 ”包含 捕获 型 括号 的 regex。 

下 面 分 别 讨论 。 


if 
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返回 空 元 素 


Returning Empty Elements 


split 的 基本 功能 是 返回 由 各 个 匹配 分 隔 的 分 本 ,但 有 的 时 候 , 返回 的 文本 是 空 宁 符 串 (长 
度 为 0 的 字符 串 ， 例 如 "") ， 比 如 : 

enums = split(m/:/, "12334:3,78") 
Cg: 

Wk a a i. 
正则 表达 式 :匹配 了 3 次 ,所 以 应 当 返回 4 个 元 素 。 第 3 个 元 素 为 空 ， 表示 正则 表达 式 在 
一 行 中 匹配 了 两 次 ， 它 们 之 间 没有 文本 。 


结尾 的 空 元 素 

通常 情况 下 ， 结 尾 的 空 元 素 不 会 返回 ， 例 如 ， 
@nums = split(m/:/, "12:34::78:2:.") 1 

闻 样 会 返回 4 SICH: 


("12", 34", en "78") 
即使 这 个 正则 表达 式 在 字符 串 的 末尾 能 匹配 更 多 的 次 数 ， 结 果 也 没有 变化 。 在 默认 情况 下 ， 
split 不 会 返回 list 末尾 的 空 元 素 。 不 过 , 我 们 可 以 通过 设 定 chunk-limit 运算 元 , 让 split 
返回 所 有 的 末尾 元 素 。 


chunk-limit 运算 元 的 次 要 职能 


chunk-limit 的 主要 用 途 是 设 定 分 段 数目 的 上 限 ， 任 何不 等 于 0 的 chunk-limit 都 会 保留 末尾 
的 空 元 素 (chunk-limit 设置 为 零 等 价 于 不 设置 chunk-limit) 。 如果 你 不 希望 限制 返回 的 chunk 
的 数目 ， 但 是 希望 保留 末尾 的 空 元 素 ， 只 需要 设置 一 个 非常 大 的 限制 即 可 。 或 者 更 好 的 办 
法 是 , 设置 为 -1, 因为 chunk-limit 为 负数 表示 一 个 足够 大 的 上 限 ; split(/:/, $text, -1) 
会 返回 所 有 的 元 素 ， 包 括 末 尾 的 空 元 素 。 

另 一 个 极端 是 ， 如 果 你 不 希望 保留 任何 空 元 素 ， 可 以 在 split 之 前 使 用 grep{lengthl 。 使 
用 grep 之 后 ， 只 会 返回 长 度 不 为 0 的 元 素 (也 就 是 说 ， 非 空 元 素 )。 


my @NonEmpty = grep { length } split(/:/, $text); 


FFE BA RIFF Be 
在 字符 串 开头 的 匹配 会 产生 一 个 空 元 素 : 


@nums = split(m/:/, ":12:34::78") 


0- Oo” “od 
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@num 的 值 为 : 
(xe a12", “34", ne 76") 


开始 的 空 元 素 表明 ， 正 则 表达 式 在 字符 串 的 开头 能 够 匹配 。 不 过 也 有 例外 ， 如 果 一 个 正则 
表达 式 没 有 匹配 任何 文本 ， 如 果 它 在 字符 串 的 开头 或 者 结尾 匹配 ， 那 么 开头 和 /或 结尾 的 空 
元 素 将 不 会 生成 。 来 看 个 简单 的 例子 : eplit(/\b/，"a simple test")， 它 能 够 匹配 其 
中 的 6 个 位 置 “a…"simple…"tesc，。 即 使 它 能 匹配 6 次 ， 也 不 会 返回 7 个 元 素 ， 而 是 5 
TCH: ("a"，"*"，"simple"，"*"，"test")。 其 实 ， 这 种 特殊 情况 我 们 已 经 见 过 ， 即 
第 321 页 的 @Lines = split(m/*/m, $lines)。 


Split 中 的 特殊 Regex 运算 元 


Split ` s Special Regex Operands 


split 的 match 运算 元 通常 就 是 正则 文字 或 者 regex 对 象 ， 这 与 match 运算 符 的 情况 一 样 ， 
不 过 也 有 例外 : 


。 regex 为 空 的 意思 不 是 “使 用 当前 的 默认 正则 表达 式 "， 而 是 把 目标 字符 串 分 割 为 字符 。 
在 刚 开 始 讨论 split 的 时 候 我 们 见 过 这 个 例子 ，split(//，"ehort test") 返 回 10 


个 元 素 的 list: ("s", "h", "o", «+, "8", "t"), 


。 “如果 match 运算 元 是 由 单个 空格 构成 的 字符 串 (而 不 是 正则 表达 式 ) ， 则 是 另 一 种 特殊 
情况 。 它 基本 等 同 与 人/\s+/， 只 是 会 忽略 开头 的 空白 字符 。 这 主要 是 为 了 模拟 awk 对 
输入 进行 的 默认 的 输入 -记录 -分 隔 (input-record-separator) 操作 ,尽管 对 普通 情况 来 说 
它 也 很 有 用 。 


如 果 和 希望 保留 开头 的 空白 字符 , 可 以 直接 使 用 m/s+/。 如果 希 望 保留 末尾 的 空白 字符 ， 
只 需要 把 chunk-limit 设置 为 -1。 


。 ”如 果 没 有 设置 regex 运算 元 ， 则 默认 使 用 一 个 空格 符 (上 面 提 到 的 特殊 情况 )。 这 样 ， 
不 带 任何 运算 元 的 split 就 等 价 于 split(…'，$_，0)。 


。 如果 regex H's, 会 自动 使 用 修饰 符 /m (增强 型 行销 点 匹配 模式 ) 。( 因 为 某 些 原因 ,'s， 
则 不 行 )。 因 为 明确 使 用 m/^ 锋 非常 容 易 ， 我 推荐 这 种 更 清晰 的 写法 。m/ “人 m 是 把 包含 
多 行文 本 的 字符 串 按 行 切 分 的 简便 方法 。 


Split 不 产生 伴随 效应 


请 注意 , split 的 match 运算 元 看 起 来 很 像 普 通 的 match 运算 符 , 但 是 它 没 有 任何 伴随 效应 。 
split 中 的 正则 表达 式 不 会 影响 到 之 后 的 match 或 是 substitution 操作 所 用 的 默认 正则 表达 


it 
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式 ， 也 不 会 设置 $g、$'、$1 之 类 的 变量 。split 在 伴随 效应 上 完全 独立 于 程序 的 其 他 部 分 
( 注 8)。 


Split 中 带 捕获 型 括号 的 match 运算 元 


Split ` s Match Operand with Capturing Parentheses 


捕获 型 括号 会 从 整体 上 改变 split, 一 旦 使 用 了 捕获 型 括号 , 返回 的 list 中 会 多 出 些 独 立 的 
元 素 ， 它 们 对 应 于 括号 捕获 的 元 素 。 也 就 是 说 ，split 没有 返回 的 部 分 或 全 部 的 文本 ， 会 ' 
包含 在 返回 的 list 中 。 


例如 ， 在 处 理 HTML 时 ， 对 下 面 的 文本 调用 split (/ (<[^>]*>)/): 
"and<B>very‘<FONT*color=red>very</FONT>"much</B>'effort:… 
返回 : 


( '... sand*', ‘<B>', 'very*', '<FONT'color=red>', 
‘very’, ‘</FONT>', ‘*much', ‘</B>', ‘*effort...'" ) 


如 果 去 掉 捕 获 型 括号 ，split(/<[^>]*>/) 返 回 : 


( '... ‘ands’, ‘very*', ‘very’, ‘*much', ‘*effort...' } 


多 出 来 的 元 素 不 受 分 段 上 限 的 限制 (chunk-limit 限制 原来 字符 串 切 分 之 后 的 分 段 数目 ， 而 
不 是 返回 元 素 的 数目 )。 


如 果 包 含 多 个 捕获 型 括号 ， 每 次 匹配 之 后 ，list 会 多 出 多 个 元 素 。 如 果 某 个 捕获 型 括号 没有 
参与 匹配 ， 对 应 的 元 素 为 undef, 


巧 用 Perl 的 专 有 特性 


Fun with Perl Enhancements 


最 先 由 Pel 提供 的 许多 正则 表达 式 概念 ， 现 在 其 他 语言 也 提供 了 。 包 括 非 捕获 型 括号 、 环 
H (以 及 之 后 的 逆序 环视 ) 、 宽 松 排列 模式 (其实 是 大 多 数 模式 ， 实 际 上 还 包括 配套 的 \ai、 
\z 和 仆 2)、 固 化 分 组 、\G, 和 条 件 判断 结构 。 这 些 概 念 不 再 是 Perl 独 有 的 , 所 以 我 把 它们 
挪 到 本 书 的 通用 部 分 。 


不 过 Perl 者 也 没有 停止 创新 ， 所 以 现在 还 有 些 重要 的 概念 只 有 Perl 提供 。 其 中 最 有 意思 的 
是 在 匹配 尝试 中 执行 任意 代码 的 功能 。 长 期 起 来 , Perl 的 特点 之 一 就 是 正则 表达 式 与 代码 的 
紧密 集成 ， 但 是 此 特性 把 集成 提升 到 了 新 的 高 度 。 


注 8: 其 实 确 实 存 在 一 种 件 随 效 应 ， 它 在 若干 年 前 就 被 手 齐 (deprecate) 了 ， 但 是 没有 从 语言 中 
去 除 。 如 果 在 scalar context 或 者 void context 下 使 用 split ， 它 会 把 结果 写 入 @_ 变 量 ( 它 
也 是 用 来 传递 函数 和 参数 的 变 重 ， 所 以 万 万 不 要 在 这 两 种 应 用 场合 下 使 用 split)。 在 这 两 
种 情况 下 使 用 split ， 如 果 设 置 了 use warning 或 是 命令 行 参 数 -w， 都 会 看 到 警报 。 
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我 们 先 来 简单 看 看 这 个 特性 和 目前 Perl 独 有 的 其 他 特性 ， 然 后 详细 讲解 。 
动态 正则 结构 (??{ perl code })) 


应 用 正则 表达 式 时 ， 每 次 过 到 表达 式 中 的 这 个 结构 ， 就 会 执行 其 中 的 Perl 代码 。 执 行 
的 结果 (或 者 是 regex 对 象 ， 或 者 是 解释 为 正则 表达 式 的 字符 串 ) 会 作为 当前 匹配 的 
一 部 分 即刻 被 应 用 。 


(dr)(??{"X{$1}"})$; 中 的 动态 正则 结构 以 下 画 线 标注 , 这 个 正则 表达 式 匹 配 的 行 
开头 是 一 个 数 ， 然 后 是 字符 “x” 必 须 重 现 对 应 的 次 数 ， 直 到 行 末 尾 。 





它 能 匹配 “3XXX” 和 “12XXXXXXXXXXXX"” ， 但 不 能 匹配 “3X7” 或 “7XXXX ” 。 


仔细 看 “3xxx” 就 会 发 现 ， 开头 的 '(\ad+) 匹配 xxx ， 把 SI 设 为 “3 。 之 后 正则 引 
擎 遇 到 动态 正则 结构 ， 执 行 “x{$1}”， 得 到 “x{3} "， 解 释 得 到 的 'x{3}, 作 为 当前 正 
则 表达 式 的 一 部 分 (匹配 “3xxx" )， 末 尾 的 S 匹配 “3Xxx、， 得 到 整体 匹配 。 


下 面 我 们 会 看 到 ， 匹 配 任意 深度 的 嵌 套 结构 时 ， 动 态 正 则 结构 尤其 有 用 。 
PIER BAH | (?{ arbitrary perl code} ), 


与 动态 正则 结构 一 样 ， 在 正则 表达 式 的 应 用 过 程 中 ， 遇 到 此 结构 也 会 执行 其 中 的 Perl 
代码 ， 但 是 这 个 结构 更 为 通用 ， 因 为 代码 不 需要 返回 任何 特定 的 值 。 通 常 也 不 会 用 到 
返回 值 (不 过 如 果 表 达 式 之 后 的 部 分 需要 ， 可 以 通过 变量 $^R AH 302), 


有 一 种 情况 会 用 到 这 段 代码 的 执行 结果 ; 如 果 内 嵌 的 代码 结构 用 作 “(? if thenielse), p 
的 放 条 件 ( 宁 140)。 此 时 ， 结 果 会 解释 为 布尔 值 ， 根 据 它 来 决定 执行 then 还 是 else 分 


内 嵌 代 码 可 以 于 许多 事情 ， 相 当 有 用 的 就 是 调试 。 下 面 这 段 程序 会 在 每 次 应 用 正则 表 
达 式 时 显示 一 条 信息 ， 内 嵌 的 代码 结构 用 下 夯 线 标注 : 
"hava a nice day" =~ ml{ 
(?{ print "Starting match. \n"}) 
\b(?: the | an | a )\b 


}x; 
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测试 中 ， 正 则 表达 式 只 匹配 1 次 ， 但 是 信息 会 显示 6 次 ， 说 明 传 动 装置 在 第 6 次 尝试 
之 前 已 经 在 5 个 位 置 应 用 了 正则 表达 式 ， 第 6 次 可 以 完全 匹配 。 


正则 文字 重 载 


正则 文字 重 载 能 够 让 程序 员 先 自行 处 理 正 则 文字 ， 再 将 它们 交 给 正则 引擎 。 它 可 以 用 
来 为 Perl 的 正则 流派 扩展 新 的 功能 。 例 如 ，Perl 没有 提供 单独 的 单词 起 始 和 结束 分 隔 
TF (RA \bj) ， 不 过 你 可 能 希望 使 用 < 和 \>， 让 Perl 能 够 识别 这 些 结构 。 


正则 重 载 有 些 重要 的 限制 ， 严 格 制约 了 它 的 用 途 。 在 讲解 \< 与 \> 的 例子 时 我 们 会 看 到 
这 一 点 。 


如 果 正 则 表达 式 中 内 嵌 了 Perl 代码 (无 论 是 动态 正则 结构 还 是 内 巍 代 码 结构 )， 最 好 是 只 
用 全 局 变量 ， 除 非 你 明白 关于 338 页 讲解 的 my 变量 的 重要 知识 。 关 于 my 变量 的 讨论 ， 请 
参阅 第 338 页 。 


用 动态 正则 表达 式 结构 匹配 嵌 套 结构 


Using a Dynamic Regex to Match Nested Pairs 


动态 正则 表达 式 的 主要 用 途 之 一 是 匹配 任意 深度 的 戏 套 结构 《长久 以 来 人 们 认为 正则 表达 
式 对 此 无 能 为 力 ) 。 匹 配 任意 深度 的 能 套 括号 是 个 重要 的 例子 。 为 了 说 明白 动态 正则 如 何 解 
决 这 个 问题 ， 我 们 首先 必须 知道 传统 结构 为 什么 不 能 解决 这 个 问题 。 


匹配 括号 文本 的 简单 表达 式 是 八 (([^()])*\)。 在 外 月 括号 内 不 容许 出 现 括 号 ， 所 以 不 能 
ARE (也 就 是 ， 只 容许 深度 为 0 ORE). A regex 对 象 来 表示 就 是 : 


my $Level0 = qr/ \( ( [*()] )* \) /x; # 括号 内 文本 


Ne 


if ($text =~ m/\b( \w+$Level0 )/x) { 
print “found function call: $1\n"; 


} 


IX AEMBPC AC “substr(Sstr, 0, 3)”, 但 不 能 配 “substr ($str，0，(3+2))”， 因 为 它 包 
含 嵌 套 的 括号 。 现 在 修改 正则 表达 式 来 处 理 它 ， 也 就 是 需要 能 够 处 理 深度 为 1 RE. 
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容许 深度 为 1 的 媒 套 意味 着 ， 外 部 的 括号 里 头 可 以 出 现 括号 。 所 以 ， 我 们 需要 修改 匹配 外 
层 括号 内 文本 的 表达 式 '[^ () 11, 添加 一 个 子 表达 式 匹 配 内 层 括号 里 的 文本 。 我 们 可 以 这 样 ， 
SLevel0 保存 这 样 一 个 正则 表达 式 ， 再 从 此 往 上 司 加 : 


my $Level0 = qr/ \( ( [*()] booth. SEF # 括号 内 文本 
my $Levell = qr/ \( ( [^()]| $Level0 )* \) /x; # L1ERE 


这 里 的 SLevel0 与 之 前 的 相同 ， 新 出 现 了 $Level1， 匹 配对 应 深度 的 括号 ， 加 上 $Leve10， 
就 得 到 深度 为 1 KE. 


为 了 增加 人 嵌 套 的 深度 ， 我 们 可 以 用 同样 的 方法 ， 通 过 $Level1 (仍然 使 用 $Leve10) 得 到 


SLevel2 ， 


my $Level0 = qr/ \( ( [*()] )* \) /X; # FARA 

my $Levell = qr/ \( ( [*()] | $LevelO )* \) /x; # LEKË 

my $Level2 = qr/ \( ( [*()] | $Levell )* \) /x; # 2EkE 
继续 下 去 就 是 : 

my $Level3 = qr/ \( ( [*()] ; $Level2 )* \) /x; # JERK 

my $Level4 = qr/ \( ( [*()] ; $Level3 )* \) /x; # LKŠ 

my $Level5 = qr/ \( ( [*()] ; $Level4 )* \) /x; # SAKE 


图 7-1 说 明了 开始 几 层 的 情况 : 





图 7-1: 层 数 较 少 的 谋 套 


把 这 些 层级 加 起 来 的 结果 很 复杂 ， 下 面 是 $SLeve113: 
VCCLAO DINGO OTINGEL* OLDEN COL COI AND) AND AND AND 


这 相当 难看 。 
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幸运 的 是 ， 我 们 不 需要 直接 解释 它 ( 那 是 正则 引擎 的 工作 )。 使 用 srevel 变量 很 容易 处 理 ， 
但 问题 是 ， 储 套 的 深度 是 由 $Level 变量 的 数目 决定 的 。 这 种 办 法 不 够 灵活 (用 墨 非 定律 来 
说 就 是 ， 如 果 程 序 能 处 理 深度 为 X 的 嵌 套 ， 则 遇 到 的 数据 的 嵌 套 深 度 必定 会 是 X+1)。 


幸运 的 是 ,动态 正则 可 以 应 付 任意 深度 的 能 套 。 你 只 需要 想 明白 , 除 第 一 个 之 外 ,每 个 SLevel 
变量 的 构建 方式 都 是 相同 的 需要 增加 一 级 伐 套 深度 时 ， 只 需要 包含 上 一 级 的 SLevel 变量 
即 可 。 但 如 果 $Level 变量 都 是 相同 的 ， 它 就 同样 能 包含 更 深 级 别 的 SLevel。 事 实 上 ， 它 还 
可 以 包括 自身 。 如 果 在 匹配 更 深层 的 嵌 套 时 它 可 以 用 某 种 方式 包含 自身 ， 就 能 递归 地 处 理 
FERRE ARE. 


这 就 是 动态 正则 的 威力 所 在 。 如 果 我 们 创建 一 个 regex 对 象 一 一 比如 $Level BR, MATL 
在 动态 正则 中 引用 它 (动态 正则 结构 可 以 包含 任意 的 Perl 代码 ， 只 要 结果 能 被 解释 为 正则 
表达 式 , 返回 已 存在 的 regex 对 象 的 Perl 代码 当然 符合 要 求 ) 。 如 果 我 们 能 把 sLevel 之 类 的 
regex 对 象 放 和 信 $LevelN， 就 可 以 用 '(??{ $LevelN }), 来 引用 它 : 


my $LevelN; # 必须 首先 声明 ， 下 面 才能 使 用 
SLevelN = qr/ \(( [*()] | (??{ $LevelN }) )* \) /x; 


ERREL ACE RRR REGS, FR ZaAAYsLevelo; 
if ($text =~ m/\b( \w+SLevelN )/x) { 


print "found function call: $1\n"; 
} 


哈 ! 想 明 白 其 中 的 道理 可 不 是 件 容易 的 事情 ， 不 过 一 旦 用 过 ， 就 会 发 现 这 个 工具 的 价值 。 
现在 我 们 已 经 有 了 基本 的 办 法 ， 我 希望 做 些 修改 提高 效率 。 我 会 替换 捕获 型 括号 为 固化 分 


组 (这 里 既 不 需要 捕获 文本 , 也 不 需要 回溯 ), ZELE ONL KAO RAAR, 
(不 要 在 固化 分 组 中 这 样 做 ， 否 则 会 造成 无 休止 匹配 226)。 


最 后 , 我 希望 把 \ OAV ,移动 到 动态 正则 表达 式 两 端 。 这 样 , 在 确实 需要 用 到 之 前 ,引擎 
不 会 直接 调用 动态 正则 结构 。 下 面 是 修改 之 后 的 版 本 : 


$LevelN = qr/ (?> [^()]+ | \{ (??{ $LevelN }) \) )* /x; 


因为 它 不 包含 外 部 的 八 (…\),， 调 用 $LevelN 时 必须 手动 添加 。 


Hii 
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这 样 一 来 ， 表 达 式 就 十 分 灵活 ， 可 以 在 任何 可 能 出 现 嵌 套 括 号 的 地 方 使 用 ， 而 不 仅仅 是 出 
RT REE SHEH.: 


if ($text =~ m/\b( \w+ \( SLevelN \) )/x) { 
print “found function call: $1\n"; 


if (not $text =~ m/* $LevelN $/x) { 
print “mismatched parentheses!\n"; 


} 
第 343 页 还 有 一 个 关于 $LevelN 的 例子 。 


AARNE 


Using the Embedded-Code Construct 


内 嵌 代 码 结构 很 适合 调试 正则 表达 式 ， 以 及 积累 正在 进行 的 匹配 的 信息 。 下 面 几 页 详细 给 
出 了 一 组 例子 ， 最 终 得 到 模拟 POSIX 匹配 的 方法 。 讲 解 的 过 程 可 能 比 真正 的 答案 更 有 意思 
(除非 你 只 需要 POSIX 的 匹配 语意 )， 因 为 在 讲解 中 我 们 会 收获 有 用 的 技巧 和 启发 。 


先 从 简单 的 正则 表达 式 调试 技巧 开始 。 


用 内 柑 代 码 显 示 匹 配 进 行 信息 
这 段 程序 : 


"abcdefgh" =~ m{ 
(?{ print "starting match at [$$']\n" }) 
(?:dlelf) 


starting match at [|labcdefgh) 
Starting match at [albcdefgh] 
Starting match at [ab|cdefgh] 
starting match at [abcdefgh] 


正则 表达 式 的 开头 就 是 内 嵌 代 码 结构 ， 所 以 只 要 正则 表达 式 开 始 新 一 轮 匹 配 ， 就 会 执行 ; 


print "starting match at [$*'I$‘]\n" 


ERR Es As’ (7300) ( 注 9) 表示 目标 字符 串 ， 用 “1 ”标记 当前 的 匹配 位 置 (在 这 里 就 
是 匹配 开始 的 位 置 ) 。 从 结果 中 我 们 可 以 知道 ， 传 动 装置 (7148) 进行 了 4 次 应 用 ， 才 匹 
配 成 功 。 


注 9: 通常 ， 我 不 推 荫 使 用 特殊 的 匹配 变量 S'\、5S& 和 5S4， 它 们 会 降低 整个 程序 的 效率 (7356), 
但 是 它们 对 临时 调试 非常 有 用 。 
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事实 上 ， 如 果 我 们 添加 ;: 


(?{ print "matched at [S$'<$&>$’]\n" J) 


在 正则 表达 式 末 尾 ， 则 结果 是 : 


matched at [abc<d>efgh} 


现在 来 看 下 面 的 程序 ， 除 了 “ 主 ” 正 则 表达 式 是 [aef] 而 不 是 "(?:dielf)i, 之 外 ， 其 他 部 
分 与 开头 的 例子 是 一 样 的 : 
“abcdefgh” =~ m{ 
(?{ print “starting match at [$*‘I$’]\n" }) 


[def] 
}x; 


从 理论 上 说 ， 结 果 应 该 是 一 样 的 ， 实 际 情况 却 是 : 

starting match at [abcidefgh] 
为 什么 呢 ? Perl 足够 聪明 ， 对 这 个 以 “Idef]) 开头 的 正则 表达 式 进 行 开头 字符 /字符 组 / 字 串 
识别 优化 (247)， 这 样 传动 装置 就 能 略 过 那些 它 认 为 必然 会 失败 的 尝试 。 结 果 是 忽略 了 


其 他 所 有 尝试 ， 只 进行 了 可 能 导致 匹配 的 尝试 ， 我 们 可 以 通过 内 和 崔 代 码 结构 观察 到 这 种 现 
象 。 


panic: top_env 


使 用 内 嵌 代 码 或 是 动态 正则 表达 式 时 ， 如 果 程 序 和 忽然 终止 ， 给 出 这 样 的 信息 : 
panic: top_env 

很 可 能 是 因为 正则 表达 式 的 代码 部 分 存在 语法 错误 。Perl 不 能 识别 某 些 错误 的 语法 ， 

结果 就 是 这 条 信息 。 解 决 的 办 法 就 是 修正 语法 错误 。 





用 内 檬 代码 显示 所 有 匹配 


Perl 使 用 的 是 传统 型 NFA 引擎 ， 所 以 一 旦 找到 匹配 就 会 停 下 来 ， 即 使 还 存在 其 他 的 匹配 也 
是 如 此 。 如 果 巧 妙 地 使 用 内 艇 代码 ， 我 们 能 够 让 Perl 显示 所 有 的 匹配 。 我 们 仍然 以 177 页 
的 “onself ”为 例 来 说 明 。 
"oneselfsufficient" =~ m{ 
one (self)?(selfsufficient) ? 


(?{print “matched at [$*<S$&>$‘]\n" }) 
}x; 


it 
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结果 如 我 们 所 料 ; 


matched at [<oneself>sufficienc] 
表示 “eneselfsufficient” 已 经 被 正则 表达 式 匹 配 。 


重要 的 是 认识 到 ,结果 中 的 “matched” 的 部 分 并 不 是 所 有 “能 够 匹配 ”的 文本 ， 只 是 到 目 
前 获得 的 匹配 。 在 这 个 例子 中 谈论 其 中 的 区 别 意 义 不 大 ， 因 为 内 内 代码 结构 位 于 正则 表达 
式 的 最 后 。 我 们 知道 ， 内 风 代 码 结构 完成 时 ， 整 个 正则 表达 式 的 所 有 匹配 尝试 都 已 结束 ， 
实际 匹配 的 结果 就 是 如 此 。 


不 过 ， 在 内 幅 代 码 结构 之 后 添加 '(?!) ,的 情况 如 何 呢 ?“(?!), 是 否定 型 顺序 环视 ， 它 必然 
会 失败 。 如 果 它 在 内 柑 代 码 执 行 之 后 生效 (也 就 是 在 “matched” 信 息 打印 之 后 ) ， 就 会 强迫 
引 敬 回溯， 查找 新 的 匹配 。 每 次 输出 “matched” 信 息 之 后 , '(?!) ,都 会 强迫 引擎 回溯 ， 最 
终 试 壳 所 有 的 可 能 。 

matched at [<oneself>sufficient] 


matched at [<oneselfsufficient>] 
matched at [<one>selfsufficient] 


我 们 所 做 的 修改 确保 正则 表达 式 必 然 不 能 完整 匹配 ， 但 是 这 样 做 却 能 让 引擎 报告 显示 所 有 
可 能 的 匹配 。 如 果 不 使 用 '(?!)J,, Pel 只 会 返回 第 一 个 匹配 , 使 用 5(? !)) 则 可 以 见 到 其 他 可 
能 。 


了 解 了 这 一 点 之 后 ， 来 看 看 下 面 的 代码 ， 


"123" =~ m{ 
\d+ 
(?{ print "matched at [$‘<S&>$']\n" }) 
(?!) 
}x3 
结果 是 : 


matched at [<123>] 
matched at [<12>3] 
matched at [<1>23] 
matched at [1<23>] 
matched at [1<2>3] 
matched at [(12<3>] 


前 三 行 是 我 们 能 够 想象 的 , 但 如 果 不 仔细 动 动脑 筋 ， 可 能 没 法 理解 后 三 行 。(?!) ,强迫 进行 
的 回溯 对 应 第 二 行 和 第 三 行 。 在 开始 位 置 的 尝试 失败 之 后 ， 传 动 装置 会 启动 驱动 过 程 ， 从 
第 二 个 字符 开始 (第 4 章 对 此 有 详细 介绍 )。 第 四 行 和 第 五 行 对 应 第 二 轮 尝 试 ， 最 后 一 行 对 
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所 以 ， 添加 (?!) 之 后 确实 能 显示 出 所 有 可 能 的 匹配 ， 而 不 是 从 某 个 特定 位 置 开 始 的 所 有 匹 
配 。 不 过 ， 有 了 时候 只 需要 从 特定 位 置 开始 的 所 有 匹配 ， 下 面 我 们 将 会 看 到 。 


寻找 最 长 匹配 


如 果 我 们 不 希望 找到 所 有 匹配 ， 而 是 希望 找到 并 保存 最 长 的 匹配 ， 应 该 如 何 做 呢 ? 我 们 可 
以 用 一 个 变量 来 保存 “到 目前 为 止 ”最 长 的 匹配 ， 比 较 每 一 个 “当前 匹配 ”和 它 。 下 面 是 
‘onself” 的 例子 : 


$longest_match = undef; # 用 于 记录 最 长 的 匹配 


“oneselfsufficient" =~ m{ 
one (self)?(selfsufficient) ? 
(?{ 
# 比较 当前 匹配 (S&) 与 之 前 记录 的 最 长 匹配 
if (not defined($longest_match) 
or 
length($&) > length($longest_match) ) 
{ 
Slongest_match = S&; 
} 
}) 
(2?!) # 保证 匹配 失败 ， 通 过 回溯 继续 寻找 其 他 匹配 


}x; 


# PRAA, ae 
if (defined(Slongest_match)) { 
print "longest match=[Slongest_match] \n"; 
} else { 
print "no match\n"; 
} 


SAAT, GRE ‘longest match=(oneselfsufficient]”’, K—-RARRIBRK, 7 
过 将 来 我 们 可 能 会 使 用 ， 所 以 我 们 把 它 和 '(?!) ,封装 起 来 ， 作 为 单独 的 regex HR: 


my $RecordPossibleMatch = ar{ 
(?{ 
# 比较 当前 匹配 ($&) 与 之 前 记录 的 最 长 匹配 
if (not defined($longest_match) 
or 
' length{($&) > length(S$longest_match) ) 
{ 
Slongest_match = $&; 
} 
}) 
(2!) # 保证 匹配 失败 ， 通 过 回溯 继续 寻找 其 他 匹配 


}x; 


iH 
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下 面 这 个 简单 例子 会 找到 最 长 的 匹配 “9938": 


Slongest_match = undef; # 记录 最 长 的 匹配 
"800-998-9938" =~ m{ \d+ $RecordPossibleMatch }x; 


# 输出 到 目前 为 止 的 累积 结果 
if (defined(Slongest_match)) { 
print "longest match=[{Slongest_match] \n"; 
} else { 
print "no match\n"; 
} 


寻找 最 左 最 长 的 匹配 


我 们 已 经 能 找到 最 长 的 全 局 匹配 ， 现 在 需要 找到 出 现在 最 前 边 的 最 长 匹配 。POSIX NFA 就 
是 这 样 做 的 《=177)。 所 以 ， 如 果 找 到 一 个 匹配 ， 就 要 禁止 传动 装置 的 驱动 过 程 。 这 样 ， 
一 旦 我 们 找到 某 个 匹配 ， 正 常 的 回溯 会 起 作用 ， 在 同一 位 置 寻找 其 他 可 能 的 匹配 (同时 需 
要 保存 最 长 的 匹配 ) ， 但 是 禁用 驱动 过 程 保 证 不 会 从 其 他 位 置 寻找 匹配 。 


Perl 不 容许 我 们 直接 操作 传动 装置 ， 所 以 我 们 不 能 直接 禁用 驱动 过 程 ， 但 如 果 slongest_ 
match 已 经 定义 , 我 们 能 够 达到 实现 禁用 驱动 过 程 的 效果 。 测试 定义 的 代码 是 '(?{ defined 
$longest_match})j, 但 这 还 不 够 ,因为 它 只 测试 变量 是 否定 义 。 重 要 的 是 根据 测试 结果 进 
行 判断 。 


ER AAI PE ARAB 


为 了 让 正则 引擎 根据 测试 结果 改变 行为 ， 我 们 把 测试 代码 作为 '(? ifthen 1 else) ,中 的 并 部 
分 (140)。 如 果 我 们 希望 测试 结果 为 真 时 正则 表达 式 停 下 来 ， 就 把 必然 失败 的 21) E 
为 then 部 分 。( 这 里 不 需要 else 部 分 ， 所 以 没有 出 现 )。 下 面 是 封装 了 条 件 判断 的 regex 对 
R: 


my $BailIfAnyMatch = qr /(?(?{defined $longet_match}) (?!))/; 


放 部 分 以 下 画 线 标注 ，then 部 分 以 粗 体 标注 。 卜 面 是 它 的 应 用 实例 ,其 中 结合 了 前 一 页 定义 


的 SRecordPossibleMatch， 


"800-998-9938" =~ m{ $BailIfAnyMatch \d+ $RecordPossibleMatch }x; 


得 到 “800 ， 它 符合 POSIX 标准 一 一 “所 有 最 左 位 置 开始 的 匹配 中 最 长 的 匹配 ”。 


FARA HER local 函数 


Using Jocalin an Embedded-Code Construct 


local 在 内 嵌 代 码 结构 中 有 特殊 的 意义 。 理 解 它 需要 充分 掌握 动态 作用 域 (7295) 的 概念 和 
第 4 章 讲解 表达 式 主导 的 NFA 引擎 工作 原理 时 所 做 的 “面包 渣 比喻 ”(158)。 下 面 这 段 专 
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门 设计 【我们 会 看 到 ， 它 有 缺陷 ) 的 程序 没有 太 多 复杂 的 东西 , 但 有 助 于 理解 local 的 意义 。 
它 检 查 一 行文 本 是 否 只 包含 wA Asu, URA BD w+ 是 、\d+\bi: 

my SCount = 0; 

$text =~ m{ 


^ (?> \d+ (?{$Count++}) \b | \w+ | \s+ )*S 
}x; 





如 果 用 它 来 匹配 字符 串 “123"abc*73*9271*xyz”，$Count 的 值 是 3。 不 过 ， 如 果 匹 配 字 符 
串 “123"abc*73xyz" ， 结 果 就 是 2， 虽 然 应 该 是 1。 问 题 在 于 ，“73” 匹 配 之 后 ，$count 的 
值 会 发 生变 化 ,因为 后 面 的 \b 无 法 匹配 ,\a+ 当时 匹配 的 内 容 需 要 通过 回溯 “交还 ", 内 
诺 结 构 的 代码 却 不 能 恢复 到 “未 执行 ”的 状态 。 


如 果 你 还 不 完全 了 解 固化 分 组 (?>…): (7139) 和 上 面 发 生 的 回溯 也 没关系 ， 固 化 分 组 用 
于 避免 无 休止 匹配 (269)， 但 不 会 影响 结构 内 部 的 回溯 ， 只 会 影响 重新 进入 此 结构 的 回 
溯 。 所 以 如 果 接 下 来 的 \b, 不 能 匹配 ,\d+, 的 “交还 ”就 完全 没有 问题 。 


简单 的 解决 办 法 是 ， 在 $count 增加 之 前 添加 “bl， 保 证 它 的 值 只 有 在 不 进行 “交还 ”操作 
的 情况 下 才 会 变化 。 不 过 我 更 愿意 在 这 里 使 用 1ocal， 来 说 明 应 用 正则 表达 式 期 间 这 个 函 
数 对 Perl 代码 的 影响 。 来 看 这 段 程序 : 


our $Count = 0; 


Stext =~ mf 
^ (?> \d+ (?{ local($Count) = $Count + 1 }) \b | \w+ | \s+ )* $ 
}x; 


要 注意 的 第 一 点 是 ，$Count 从 my 变量 变 为 全 局 变量 (我 推荐 使 用 use strict, MRA 
做 了 ， 就 必须 使 用 our 来 “声明 ”全 局 变量 )。 


男 一 点 要 注意 的 是 ，$count 的 修改 已 经 本 地 化 了 。 关 键 在 于 : 对 正则 表达 式 内 部 的 本 地 化 
变量 来 说 ， 如 果 因 为 回溯 需要 “交还 ”1local 的 代码 ， 它 会 恢复 到 之 前 的 值 (新 设 定 的 值 
会 被 放弃 ) 。 所 以 ， 即 使 local ($count) = $Count +1 在 人 df 匹配 “73 ”之 后 执行 ， 把 
$Count 的 值 从 1 改 为 2， 这 个 修改 也 只 会 是 调用 local 时 的 “本 地 化 到 (当前 正则 表达 式 
的 ) 成 功 路 径 " 。 如 果 \b 匹配 失败 ， 正则 引擎 会 回溯 到 local 之 前 ，$count 恢复 到 1。 这 
也 就 是 正则 表达 式 结 束 时 的 值 。 
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Ak Perl 代码 的 插值 


因为 安全 方面 的 考虑 ，Perl 不 容许 用 内 嵌 代 码 结构 '(?{…])) | 或 动态 表达 式 结构 
(3?1{…)) ;1 对 正则 表达 式 进行 字符 事 插 值 (不 过 它们 可 以 进行 regex RIG, KF 
# 334 页 的 SRecordPossibleMatch)， 也 就 是 说 : 

m{ (?{ print "starting\n" }) some regex: }x; 
是 可 以 的 ， 但 

my $ShowStart = ‘(?{ print "starting\n" })'; 

m{ $ShowStart some regex" }x; 
不 行 。 之 所 以 要 施加 这 种 限制 ， 是 因为 把 用 户 的 输入 作为 正则 表达 式 的 一 部 分 是 长 期 
以 来 的 普遍 做 法 ， 引 入 这 些 结构 会 容许 用 户 运 行 任意 代码 ， 带 来 严重 的 安全 隐患 ， 所 
以 ， 默 认 情 况 下 不 容许 这 样 。 
如 果 你 喜欢 这 样 插值 ， 可 以 使 用 下 面 的 声明 (declaration) : 

use re ‘eval'; 


LAA TRG] (设置 其 他 参数 ,编译 指示 (pragma) use re 也 可 以 用 于 调试 , 7361) 


整理 用 于 插值 的 输入 数据 


如 果 采 用 了 上 面 的 做 法 ， 而 且 确 实 需要 使 用 用 户 输 入 的 数据 插值 ， 请 确保 其 中 不 包含 
A Perl 代码 或 者 动态 正则 结构 。 我 们 可 以 用 正则 表达 式 八 (\s*\?+[pf]i 来 校 验 .。 如 
有 果 输 入 数据 能 够 匹配 ， 把 它 用 在 正则 表达 式 里 就 是 不 安全 的 。 使 用 必 s*i 是 因为 TVxi 
修饰 衬 容许 开 括号 之 后 出 现 空白 字符 (我 更 愿意 相信 它们 不 应 该 出 现在 那里 ， 不 过 事 
实 却 与 此 相反 )。 加 号 约束 的 ?1 保证 两 种 结构 都 可 以 识别 。 最 后 ， 包含 训 是 为 了 匹配 
现在 已 经 废弃 的 '(?p{…}) 1 结构 ， 也 就 是 老 版 本 的 和 ?21{…})1。 


我 想 最 好 的 办 法 是 由 Perl 提供 某 个 修饰 罕 ,控制 在 整个 正则 表达 式 或 某 个 子 表达 式 中 ， 
容许 还 是 禁止 使 用 内 嵌 代 码 。 但 是 在 没有 实现 之 前 ， 我 们 必须 按照 上 面 介绍 的 办 法 手 
工 检查 。 





所 以 ， 为 了 保证 $count 的 记 数 不 发 生 错 误 ， 必 须 使 用 10cal。 如 果 把 '(?{ print "Final 
count is $Count.\n" })) 放 在 正则 表达 式 的 末尾 ， 它 会 显示 正确 的 计数 值 。 因 为 我 们 希 
望 在 匹配 完成 之 后 使 用 $count ， 就 必须 在 匹配 正式 结束 之 前 把 它 保存 到 一 个 非 本 地 化 的 变 
量 中 。 因 为 匹配 完成 之 后 ， 所 有 在 匹配 过 程 中 本 地 化 的 变量 都 会 丢失 。 
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下 面 是 一 个 例子 : 


my S$Count = undef; 
our $TmpCount = 0; 


Stext =~ m{ 
^ (?> \d+ (?{ local($TmpCount) = $TmpCount + 1 }) \b I \w+ | \s+ )+ $ 
(?{ $Count = $TmpCount }) # RE#Scount AAAA EEF 
}x; 
if (defined $Count) { 
print "Count is $Count.\n"; 
} else { 
print "no match\n"; 
} 


看 起 来 这 么 做 有 点 儿 折腾 ， 但 这 个 例子 的 目的 是 说 明正 则 表达 式 中 本 地 化 变量 的 工作 机 制 。 
我 们 会 在 第 344 页 的 “模拟 命名 捕获 ”中 见 到 实际 的 应 用 。 


ATF ARKH my 变量 的 忠告 


A Warning About Embedded Code and my Variables 


如 果 my 变量 在 正则 表达 式 之 外 声明 ， 那 么 在 正则 表达 式 之 中 的 内 嵌 代 码 引 用 ， 就 必须 非常 
小 心 ， Perl 中 变量 绑 定 的 详细 规定 可 能 会 产生 重大 的 影响 。 在 讲解 这 个 问题 之 前 ， 我 必须 
指出 ， 如 果 正 则 表达 式 的 内 世代 码 中 使 用 的 都 是 全 局 变量 就 没有 这 种 问题 ， 完 全 可 以 跳 过 
这 一 节 。 忠 告 : 这 一 节 难 度 不 小 。 


下 面 的 例子 说 明了 问题 : 


sub CheckOptimizer 
{ 
my $text = shift; # 第 一 个 参数 是 要 检索 的 文本 
my $start = undef; # 记录 表达 式 第 一 次 应 用 的 位 置 
my Smatch = $text =~ m{ 
(?{ $start = $-{0] if not defined $start)) # 保存 第 一 次 应 用 的 位 置 
\d # 这 是 需要 测试 的 正则 表达 式 
}x; 
if (not defined $start) { 
print "The whole match was optimized away.\n"; 
if ($match) { 
# 这 种 情况 不 可 能 发 生 ! 
print "Whoa, but it matched! How can this happen!?\n"; 
} 
} elsif ($start == 0) { 
print "The match start was not optimized.\n"; 
} else { 
print “The optimizer started the match at character $start. \n" 
} 
} 


程序 中 包含 3 个 my 变量 ,但 是 只 有 $start 与 此 问题 有 关 (因为 其 他 两 个 并 没有 在 内 幅 代 
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码 中 引用 )。 程 序 首先 把 $start 设 为 未 定义 的 值 ， 然 后 应 用 开头 元 素 为 内 媒人 代码 的 匹配 ， 
只 是 在 $start 未 设 定时 ， 内 徐 代 码 结构 才 会 把 Sstart 设置 到 尝试 开始 位 置 。 本 次 尝试 的 
起 始 位 置 ” 取 自 $- [0] (e- 的 第 1 个 元 素 =302)。 


CheckOptimizer("test 123"); 


结果 就 是 : 


The optimizer started the match at character 5. 
这 没有 问题 ， 但 如 果 我 们 再 运行 一 次 ， 结 果 就 成 了 : 


The whole match was optimized away . 
Whoa, but it matched! How can this happen!? 


即使 正则 表达 式 检 查 的 文本 没有 变化 (而 且 正 则 表达 式 本 身 也 没有 变化 ), 结果 却 不 一 样 了 ， 

你 发 现 问题 了 吗 ? 问题 就 在 于 ， 在 第 二 次 调用 中 编译 正则 表达 式 时 ， 内 嵌 代 码 中 的 sscart 

取 的 是 第 一 次 运行 之 后 设置 的 值 。 此 函数 的 其 他 部 分 使 用 的 $start 其 实 是 一 个 新 的 变量 一 
每 次 函数 调用 的 开始 ， 执 行 my 都 会 重新 设置 这 个 值 。 


问题 的 关键 就 在 于 ， 内 贱 代 码 中 的 my 变量 “锁定 ”( 用 术语 来 说 就 是 : HE bound) 在 具体 
的 my 变量 的 实例 中 ， 此 实例 在 正则 表达 式 编译 时 激活 。( 正 则 表达 式 的 编译 详 见 348 页 ) 
每 次 调用 checkoptimizer， 都 会 创造 一 个 新 的 Sscart 实例 ， 但 是 用 户 很 难以 察觉 ， 内 艇 
代码 中 的 $start 仍然 指向 之 前 的 值 。 这样, 函数 其 他 部 分 使 用 的 $start 实例 并 没有 接收 到 
正则 表达 式 中 传递 给 它 的 值 。 


这 种 类 型 的 实例 绑 定 称 为 “ 闭 包 (closure)”, Programming Perl 和 Object Oriented Perl 之 类 
的 书 中 介绍 了 这 种 特性 的 价值 所 在 。 关 于 闭 包 ，Perl 社 群 中 存在 争议 , 比如 本 例 中 闭 包 究 竟 
是 不 是 一 种 “特性 ”， 就 有 不 同 看 法 。 对 大 多 数 人 来 说 ， 这 很 难 理解 。 


解决 的 办 法 是 ， 不 要 在 正则 表达 式 内 部 引用 my 变量 ， 除 非 你 知道 正则 文字 的 编译 与 my K 
例 的 更 新 是 一 致 的 。 比 如 我 们 知道 ， 第 345 页 Simpleconvert 子 程 序 中 使 用 的 my 变量 
SNestedStuffRegex 没有 这 个 问题 ， 因 为 SNestedStuffRegex 只 有 一 个 实例 。 这 里 的 my 
不 在 函数 或 者 循环 之 中 ， 所 以 它 只 会 在 脚本 载 人 时 创建 一 次 ， 然 后 一 直 存 在 ， 直 到 程序 终 
止 。 
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PAARKMEARE Sty 


Matching Nested Constructs with Embedded Code 


328 T HJFEIT ERE T int E FA 2h AS Pei cK DC Ae FE RE BER EEE Be), Rki, 这 都 是 最 简 
单 的 方法 ， 但 是 来 看 看 只 使 用 内 和 嵌 代 码 的 办 法 也 没 坏 处 ， 所 以 接 下 来 我 会 给 出 这 种 办 法 。 


办 法 很 简单 : 记录 已 经 遇 到 的 未 配对 开 括 号 的 数量 ， 只 有 此 数量 大 于 0 时 ， 才 容许 出 现 闭 
括号 。 在 匹配 文本 的 过 程 中 ， 我 们 使 用 内 嵌 代 码 来 计数 ， 不 过 在 这 之 前 必须 得 看 看 〈 目 前 
还 不 能 运行 的 ) 正则 表达 式 的 框架 。 


my S$NestedGuts = qr{ 
( ?> 


E 除 括 号 之 外 的 字符 
(*()]+ 
开 括 号 
\ ( 
闭 括号 
\) 
)* 

}x; 
为 了 保证 效率 ， 我 们 使 用 了 固化 分 组 ， 因 为 如 果 $Nestedcuts 用 于 更 大 的 正则 表达 式 ， 就 
可 能 导致 回 滴 ， 这 样 “([…]+1…)*, 就 会 造成 无 休止 匹配 (了 226)。 举 例 来 说 ， 如 果 我 们 将 
其 作为 'm/^\( SNestedGuts \)$/xJ 的 一 部 分 ， 应 用 到 “(this*ismissing*the'close?” 
中 ， 如 果 没 有 使 用 固化 分 组 ， 就 得 在 记录 和 回 诗 上 花费 漫长 的 时 间 。 


为 了 配合 计数 ， 我 们 需要 4 步 : 
O 计数 必须 从 0 开始 ; 
(?{ local $OpenParens = 0 }) 


© BATHS, MiicMe mM 1， 表 示 有 一 对 括号 没有 匹配 。 


(?{ $OpenParens++ }) 


© 过 到 闭 括号 ， 就 检查 记 数 器 ， 如 果 大 于 0， 就 减 去 1， 表 示 已 经 匹配 了 一 对 括号 。 如 果 
等 于 0， 就 停止 匹配 (因为 闲 括 号 与 开 括号 不 匹配 )， 所 以 用 '(?!) ,强迫 匹配 失败 。 


(?(?{ $OpenParens }) (?{ SOpenParens-- }) | (?!) ) 


这 里 使 用 了 (if then | else), 条 件 判断 (7140), FARES HIT ICR. EH 六 部 分 。 


il 


www.TopSage.com 


巧 用 Perl 的 专 有 特性 341 


@ 一 旦 匹配 结束 就 检查 记 数 器 ， 确 保 它 等 于 0， 否则 说 明 仍 然 有 未 匹配 的 开 括号 ， 因 此 匹 
配 失败 。 


(?(?7{ S$OpenParens != 0 })(?!)) 
综合 起 来 就 得 到 ; 


my SNestedGuts = qr{ 
(?{ local $OpenParens = 0 }) # 各 计算 未 结束 的 开 括 号 的 数目 
(?> # 固化 分 组 ， 提 高 效率 


(?: 
E 除 括 号 以 外 的 字条 
L> ]+ 
# ”四 开 括 号 
i \( (?{ SOpenParens++ }) 
# 图 闭 括号 
| \) (?(?{ SOpenParens != 0 }) (?{ $OpenParens-- }) | (?!) ) 


) 多 
) 
(?(?{ S$OpenParens != 0 })(?!)) # 加 如 果 还 有 开 括 号 ， 则 匹配 未 结束 


}x; 


这 段 程序 的 使 用 方法 与 第 330 页 的 SbevelN 完全 相同 。 


为 了 分 离 正则 表达 式 中 的 sopenParens 和 程序 中 可 能 出 现 的 其 他 全 局 变量 ， 这 里 使 用 了 
local, 但 local 的 用 法 与 之 前 的 不 同 , 这 里 不 需要 避免 回 滴 ， 因 为 正则 表达 式 使 用 了 固化 
分 组 ， 一 旦 某 个 多 选 分 支 能 够 匹配 ， 就 不 会 变 为 “交还 "。 这 样 ， 固 化 分 组 既 保 证 了 效率 ， 
又 保证 了 内 人 嵌 代 码 结构 附近 匹配 的 文本 不 会 在 回溯 中 交还 (这 样 SopenParens 就 与 实际 匹 
配 的 开 括号 数目 一 致 ) 。 


正则 文字 重 载 

Overloading Regex Literals 

通过 重 载 ， 用 户 可 以 通过 自己 喜欢 的 方式 预先 处 理 正则 文字 中 的 文字 部 分 。 下 面 几 节 给 出 
了 例子 。 


添加 单词 起 始 / 结 束 元 字符 
Perl 没有 提供 作为 单词 起 始 / 结 束 元 字符 的 \<! 和 ">, 可 能 是 因为 绝 大 多 数 情况 下 \bi 已 经 


够 用 了 。 不 过 ， 如 果 我 们 希望 使 用 这 两 个 元 字符 ， 我 们 可 以 通过 重 载 ， 将 表达 式 中 的 “\<* 
和 “\>” 分 别 替 换 为 '(?3<!\w) (?=\w) i 和 和 (2?<=\w) (?1!1\w) J。 
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先 创 建 一 个 国 数 ，MungeRegexLiteral， 进 行 需 要 的 预 处 理 : 


sub MungeRegexLiteral ($) 

{ 
my (S$RegexLiteral) = @_; # KAFE 
SRegexLiteral =~ s/\\</(?<!\\w) (?=\\w)/g; # 模拟 单词 起 始 边界 \< 
SRegexLiteral =~ e/\\>/(2?<=\\w) (?!\\w)/g; # 模拟 单词 结束 边界 \> 
return $RegexLiteral; # 返回 修改 后 的 字符 事 

} 


如 果 给 此 消 数 传递 字符 串 “…\<…" ， 它 会 将 其 转化 为 “…(?<!\w) (?=\w)… 。 记 住 ， 因 为 
replacement HIRUREI SFER, MAREA Aw ER w.e 


为 了 让 它 能 够 自动 处 理 正则 文字 的 每 个 文字 部 分 ， 我 们 将 其 存 人 文件 MyRegexStufpm, tt 
Perl ER: 


package MyRegexStuff; # 起 个 特殊 的 名 字 

use strict; # 这 是 个 好 习惯 

use warnings; # 这 也 是 个 好 习惯 

use overload; # BF Perl 的 重 载 机 制 

# #&A regex handler.... 

sub import { overload::constant qr => \&MungeRegexLiteral } 


sub MungeRegexLiteral ($) 

{ 
my ($RegexLiteral) = @_; # #RAFHS 
$RegexLiteral =~ s/\\</(?<!\\w)(?=\\w)/gq; # 模拟 单词 起 始 边界 \ < 
$RegexLiteral =~ s/\\>/(?<=\\w)(?!\\w)/q; # 模拟 单词 结束 边界 \> 
return $RegexLiteral; # 返回 修改 后 的 字符 事 

} 


1; # 标准 做 法 ，'use' 此 文件 肯定 会 返回 true 


将 MyRegexStuff.pm 放 在 Perl 的 库 路 径 (library path， 请 参考 Perl 文档 中 的 PERLLIB) F, 
所 有 需要 使 用 此 功能 的 Perl 脚本 都 可 调用 。 如 果 只 是 为 了 测试 ， 可 以 将 其 放 在 测试 脚本 同 
~ H KA , 这 样 调 用 : 

use lib '.'; # 在 当前 目录 中 寻找 库 文 件 

use MyRegexStuff; # 现在 可 以 使 用 此 功能 了 


Weems 


$text =~ s/\s+\</ /g; # 将 单词 之 前 任意 数目 任意 形式 的 空白 字符 将 挽 为 单个 空格 


每 个 需要 这 样 处 理 正 则 文字 的 程序 文件 都 必须 使 用 MyRegexStufF， 但 是 MyRegexStuff.pm 只 
需要 构建 一 次 (此 功能 在 MyRegexStuff.pm 内 部 不 可 用 ， 因 为 它 没 有 use MyRegexstuff 
一 一 我 们 肯定 不 会 这 样 做) 。 
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添加 占有 优先 量词 


我 们 继续 完善 MyRegexSruf.pm， 让 它 支持 占有 优先 量词 一 一 例如 'x++; (9142), HARE 
量词 的 作用 类 似 普 通 的 匹配 优先 量词 ， 只 是 它们 永远 不 会 释放 (也 就 是 “交还 ”) 任何 已 经 
匹配 的 内 容 。 用 固化 分 组 来 模拟 的 话 ， 只 需要 去 掉 最 后 的 “+'， 把 量词 修饰 的 所 有 内 容 放 
到 固化 分 组 里 ，regex*+! 就 成 了 '(?>regex*)! (173), 


占有 优先 量词 限定 的 部 分 可 以 是 括号 内 的 表达 式 ， 也 可 以 是 \wi 或 者 仆 x{1234)) 之 类 的 元 
序列 ， 或 是 普通 字符 。 要 处 理 所 有 情况 并 不 容易 ， 所 以 为 简便 起 见 ， 我 们 只 关注 作用 于 括 
号 的 ?+、*+ 和 ++。 有 了 330 页 的 sevelN， 我 们 可 以 把 这 段 程序 ; 


SRegexLiteral =~ s/( \{ SLevelN \)[*+?] )\+/(2>$1) /gx; 
添加 到 MungeRegexLiteral FAR, 


现在 ， 它 成 为 overload package 的 一 部 分 ， 我 们 可 以 在 正则 文字 中 使 用 占有 优先 量词 ， 例 如 
第 198 页 的 这 个 例子 : 


$text =~ Ss/"(\\,| [~"])*+"//; # 去掉 双 引 号 字符 事 


如 果 要 处 理 的 情况 不 只 是 括号 ， 就 要 复杂 很 多 ， 因 为 正则 表达 式 中 的 变数 很 多 ， 下 面 是 一 
种 尝试 : 
$RegexLiteral =~ st 
( 
# 匹配 可 能 的 限定 对 象 


(?: \\[\\abCdDefnrsStwWX] # \n, \wZ& 
\\c. # \cA 


| 
| \\x[(\da-fA-F] {1,2} # \xFF 
i \\x\{(\da-fA-F]*\} # \x{1234} 
| \\[pP]\{[^(})+\} # \p{Letter} 
| \[\]?[^]]+\] # Fie 
| \\\W # \* 
| \( $LevelN \) # (e) 
| [^()*+?NN] # 其 他 任何 字条 
) 
# ,. .标准 量词 . . . 


(?: [x+?] | \{\d+(?:,\0*)?\} ) 
) 
\+ # ,. 和 量词 之 后 的 “+ 
}{(?>$1) }gx; 


这 个 表达 式 的 大 体形 式 和 之 前 一 样 :使 用 占有 优先 量词 匹配 一 些 内 容 ， 去 掉 最 后 的 “+"， 
将 整个 表达 式 用 (?>…) , 围 起 来 。 要 想 识别 Perl 正则 表达 式 的 复杂 语法 ， 这 样 还 很 不 够 。 
匹配 字符 组 的 部 分 吗 需 改进 ， 因 为 它 并 不 能 识别 字符 组 内 部 的 转 义 。 更 糟糕 的 是 ， 这 个 表 
达 式 的 基本 思路 有 问题 ， 因 为 它 不 能 完整 识别 Perl 的 正则 表达 式 。 比 如 ， 它 就 不 能 正确 处 
理 “\ (blah\)++” 中 作为 普通 字符 的 开 括 号 ， 而 是 认为 ++ 仅仅 限定 \) 1。 
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解决 这 个 问题 得 花 许多 工夫 , 或 许 得 想 办 法 从 前 往 后 仔细 遍历 整个 正则 表达 式 (类 似 第 132 
页 的 补充 内 容 中 的 办 法 )。 我 本 来 希望 改善 处 理 字符 组 的 元 素 , 但 是 最 后 觉得 没 必 要 处 理 其 
他 复杂 情况 ， 原 因 有 两 个 。 第 一 个 是 ， 这 个 表达 式 能 应 付 大 部 分 正常 的 情况 ， 所 以 修正 处 
理 字符 组 的 元 素 就 能 满足 实用 要 求 了 。 更 重要 的 一 点 是 ， 目 前 Perl 的 正则 表达 式 重 载 有 严 
重 问题 ， 结 果 它 的 用 途 大 打折 扣 ， 讨 论 见 下 一 节 。 


正则 文字 重 载 的 问题 


Problems with Regex-Literal Overloading 


正则 文字 重 载 的 功能 非常 有 用 ， 至 少 在 理论 上 是 如 此 ， 不 幸 的 是 实际 情况 并 非 如 此 。 问 题 
在 于 , 它 只 对 正则 文字 中 的 文字 部 分 有 效 ,而 不 会 影响 插值 部 分 。 例 如 ,在 m/ ($MyStuff)*+/ 
中 MungeRegexLiteral 函数 调用 了 两 次 ， 一 次 是 在 变量 插值 之 前 (“(”) ， 另 一 次 是 插值 
之 后 (“)*+”) 。( 它 永远 不 会 影响 SMyscuff 的 值 )。 因 为 重 载 必须 同时 找到 两 个 部 分 ， 而 
插入 的 值 又 是 不 确定 的 ， 所 以 实际 上 重 载 不 会 生效 。 


对 之 前 添加 的 \< 和 \> 来 说 ， 这 不 是 个 问题 ， 因 为 变量 替换 不 太 可 能 把 它们 切 段 。 但 是 因为 
重 载 不 会 影响 插值 变量 ， 包 含 “\<” 或 “>” 的 字符 串 或 regex 对 象 就 不 会 受 重 载 影响 。 上 
一 节 已 经 提 到 ， 如 果 由 重 载 来 处 理 正 则 文字 ， 就 很 难 每 次 都 保证 完整 性 和 准确 性 。 即 使 是 
与 \> 一 样 简单 也 会 出 问题 ， 例 如 “\\>' ， 它 表示 反 斜 线 八 ” 之 后 紧 跟 尖 括 号 “> 。 


另 一 个 问题 是 ， 重 载 不 知道 正则 表达 式 所 使 用 的 修饰 符 。 表 达 式 是 否 使 用 了 /x 是 很 重要 的 
问题 ， 但 重 载 没有 确切 的 办 法 知道 。 


最 后 还 必须 指出 ， 使 用 重 载 会 禁止 根据 Unicode 命名 指定 字符 的 功能 ('\N(name}; 7290), 


模拟 命名 捕获 


Mimicking Named Capture 


讲 完 了 重 载 的 不 便 之 后 , 我 们 来 看 看 综合 了 许多 特殊 结构 的 复杂 例子 。Perl 没有 提供 命名 捕 
获 (7138) 的 功能 , 但 是 我 们 可 以 使 用 捕获 型 括号 和 $^N 变量 (7301) 来 模拟 ， 这 个 变量 
引用 的 是 最 近 结束 的 捕获 型 括号 匹配 的 内 容 (现在 我 假扮 Perl FRAR, 使 用 $^N, 特意 为 
Perl 增加 命名 捕获 的 功能 ) 。 


til 
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来 看 个 简单 的 例子 : 

‘href\s*=\s* ($HtctpUrl) (?{ $url = $^N })) 
这 里 使 用 了 303 页 的 regex 对 象 SHEcpUr1。 下 画 线 部 分 是 一 段 内 和 嵌 代 码 ， 把 SHEtpUrl 匹配 
的 内 容 保存 到 $url 中 。 在 这 里 用 $^N 取代 $1 似乎 有 些 多 此 一 举 , 甚至 不 必要 使 用 内 徐 代 码 ， 


因为 在 匹配 之 后 使 用 $1 更 加 方便 。 但 是 如 果 把 其 中 一 部 分 封装 到 regex 对 象 ， 然 后 多 次 使 
用 : 


my $SaveUrl = aqr{ 


($SHttpUr1) # 匹配 HTTP URL... 
(?{ $url = S^N }) # .. .保存 到 $url 
}x; 
Stext =~ m{ 


http \s*=\s* ($SaveUrl) 
| src \s*=\s* ($SaveUr1) 
}xi; 
无 论 sSHtcpUrl 是 怎么 匹配 的 ，$url 都 会 被 设置 为 URL。 在 这 个 简单 应 用 中 可 以 使 用 其 他 
办 法 (例如 $+ 变量 301)，, 但 是 在 更 复杂 的 情况 中 ，$saveurl 之 外 的 办 法 更 难 维护 ， 所 以 
将 它 保存 到 命名 变量 中 方便 得 多 。 


这 里 有 一 个 问题 ， 如 果 设 定 Surl 的 结构 在 回 滴 中 被 “交还 ”, 已 设 定 的 值 却 不 会 “撤销 保存 
(unwritten)”。 所 以 要 在 初始 匹配 时 修改 本 地 化 的 临时 变量 , 只 有 在 整体 匹配 真正 确认 之 后 
才 保 存 “ 真 正 ” 的 变量 ， 就 像 第 338 页 的 例子 一 样 。 


下 面 给 出 了 一 种 解决 办 法 。 从 用 户 的 角度 来 看 , 在 '(?<Num>\a+) 之后, "a+ 匹配 的 数值 仍 
然 可 以 以 S^N{Num} 访 问 。 尽 管 未 来 版 本 的 Perl 可 能 会 把 s^N 转换 为 某 种 特殊 的 系统 变量 ， 
现在 仍然 不 是 特殊 的 ， 所 以 我 们 可 以 随意 使 用 。 


我 们 可 以 使 用 sNamedcapture 之 类 的 名 字 , 但 选择 $^N 是 有 理由 的 。 之 一 是 它 类 似 $^N。 另 
一 个 理由 是 ， 如 果 写 明了 use strict， 它 不 需要 预 声明 。 最 后 ， 我 希望 Pel 最 终 会 内 建 对 
命名 捕获 的 支持 ， 所 以 我 认为 s^N 是 个 好 办 法 。 如 果 果 真如 此 ，%^N 就 能 够 和 正则 表达 式 的 
其 他 变量 (299) 一 样 ， 自 动 使 用 动态 作用 域 。 但 是 目前 ， 它 只 是 普通 的 全 局 变量 ， 所 以 
不 会 自动 使 用 动态 作用 域 。 


当然 ， 即 便 是 这 个 程序 也 会 出 现 正则 文字 重 载 的 办 法 所 具有 的 问题 ， 例 如 不 能 处 理 插值 变 
量 。 


fl 
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模拟 命名 捕获 


package MyRegexStuff; 

use strict; 

use Warnings; 

use overload; 

sub import { overload::constant('qr' => \&MungeRegexLiteral) } 


my $NestedStuffRegex; # 在 自身 定义 中 使 用 ， 必 须 预 声明 
$NestedStuffRegex = qr{ 
{?> 
(?: # 非 括号 非 转 义 的 字符 ... 
[*C) \#N\\) 4+ 
# SX FH... 
i (?s: \\. ) 
# 正则 表达 式 注 释 ... 
| 和 #.*\n 
# Pewee... 
| \{ (??{ S$SNestedStuffRegex }) \) 
)* 
) 
}x; A 
sub SimpleConvert ($); # 递归 调用 ， 必 须 预 声明 
sub SimpleConvert ($) 
{ 
my Sre = shift; # 要 处 理 的 表达 式 
Sre =~ s{ 
VE 
< ( (?>\w+) ) > # <$1 > $1 是 标识 符 
( $NestedStuffRegex ) # $2 - 可 能 出 现 的 炭 塞 结构 
\) 7" )}* 
}{ 
my $id = $1; 
my $guts = SimpleConvert ($2); 
把 
(?<id>guts) 
改 为 
(?: (guts) # 配 guts 
(2?{ 
local($*N{$id}) = Sguts # 保存 $^T 中 的 本 地 化 元 素 
}) 
) 
"(?:(Sguts) (?{ local(\S*T{'Sid'}) = \$^N }))" 
}xeog; 
return S$re; # 返回 处 理 结 果 
} 


w gt +e Se 1 + +H +H 


sub MungeRegexLiteral ($) 
{ 
my ($RegexLiteral) = @_; # SRAFHS 
# print “BEFORE: $RegexLiteral\n"; # 调试 时 取消 注释 
my Snew = SimpleConvert ($RegexLiteral); 
if {Snew ne $RegexLiteral) 





iti 
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my Shefore = q/(?{ local(%*T) = () })/; # 本 地 化 临时 hash 变量 
my Safter = q/(?{ %*N = $^T ))/; # 把 它们 拷贝 到 "真正 的 "hash 变量 


$RegexLiteral = "$before(?:$new)$after"; 
} 
# print "AFTER: $RegexLiteral\n"; # 调试 时 取消 注释 
return $RegexLiteral; 
1. 


1 f 





效率 


Perl Efficiency Issues 


在 大 多 数 情况 下 ，Perl 中 正则 表达 式 的 效率 问题 与 任何 使 用 传统 NFA 的 工具 一 样 。 第 6 章 
介绍 的 技巧 一 一 内 部 优化 、 消 除 循环 ， 以 及 “开动 你 的 大 脑 ”"， 都 适用 于 Perl, 


当然 ， Perl 也 有 专属 于 自己 的 问题 ， 这 一 节 我 们 就 来 看 看 : 


办 法 不 止 一 种 Perl 就 像 一 个 工具 箱 ， 同 一 种 问题 可 以 用 许多 办 法 来 解决 。 理 解 了 Perl 
的 思维 方式 ， 就 会 明白 哪些 问题 是 钉子 ， 但 是 选择 合适 的 锤子 还 需要 花 很 多 工夫 来 编 
写 高 效 而 易于 理解 的 程序 。 有 时 候 ， 效 率 和 易于 理解 似乎 是 不 相 容 的 ， 不 过 一 旦 理解 
深入 了 ， 就 能 做 出 更 好 的 选择 。 


表达 式 编译 、ar/…/、/o 修饰 符 和 效率 正则 运算 符 的 编译 和 插值 ， 做 得 好 的 话 能 节 
省 大 量 的 时 间 。/o 修饰 符 还 没有 详细 讲解 ， 它 配合 regex 对 象 (ar/…/)， 能 够 调控 耗 
费时 间 的 重 编译 过 程 。 


$& 的 负面 影响 伴随 效应 设 定 的 变量 $$*、$&g 和 $'， 也 许 很 方便 ， 但 存在 不 易 发 现 的 效率 
陷阱 ， 哪 怕 只 出 现 了 一 次 ， 也 可 能 带 来 麻烦 。 所 以 并 不 是 非得 使 用 它们 一 一 只 要 脚本 
中 出 现 了 任意 一 个 变量 ， 负 面 影响 就 不 可 避免。 


Study 函数 近年 来 ，Perl 提供 了 study (…) 函数 。 按 照 预期 ， 它 能 提高 正则 表达 式 的 
速度 ， 但 是 似乎 没有 人 真正 知道 它 是 否 能 提高 速度 ， 以 及 背后 的 原因 。 


性 能 测试 性 能 测试 的 规矩 就 是 ， 越 快 的 程序 终止 得 越 早 你 可 以 引用 我 的 话 )。 无 论 
小 型 函数 、 大 型 函数 ， 还 是 处 理 真实 数据 的 整个 程序 ， 性 能 测试 都 是 判断 速度 的 最 终 
标准 。 尽 管 性 能 测试 有 各 种 各 样 的 办 法 ，Perl 中 的 性 能 测试 却 是 简单 而 轻松 的 。 我 会 
给 出 我 用 的 办 法 ， 这 个 办 法 在 写作 本 书 时 做 过 数 百 次 性 能 测试 。 


正则 表达 式 调试 Perl 的 正则 表达 式 调试 标识 位 (debug flag) 可 以 告诉 我 们 ,正则 引擎 
和 传动 装置 对 正则 表达 式 进 行 了 哪些 优化 。 下 面 会 讲解 如 何 查 看 这 些 信息 ， 以 及 Perl 
包含 了 哪些 秘密 。 


if 
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办 法 不 只 一 种 


“Theres More Than One Way to Do It” 


通常 ， 一 个 同 题 总 是 有 许多 种 解法 ， 所 以 在 权衡 效率 和 可 读 性 时 ， 应 该 做 的 就 是 了 解 所 有 
的 办 法 。 来 看 个 简单 的 问题 ,修改 一 个 IP 地址 ,例如 “18.181.0.24', 保证 每 一 段 都 包含 
三 位 数字 : “018.181.000.024'。 简 单 的 办 法 是 : 


Sip = sprintf ("%03d.%03d.%03d.%03d", split(/\./, $ip)); 


这 办 法 当然 没 错 , 但 显然 还 有 其 他 的 解决 办 法 。 表 7-6 列 出 了 好 几 种 办 法 ， 比 较 了 它们 的 效 
R (按照 效率 排序 ， 最 上 面 的 效率 最 高 )。 这 个 例子 的 目的 很 简单 ， 本 身 也 没有 太 多 价值 ， 
但 是 它 能 代表 简单 的 文本 处 理 任务 ， 所 以 我 鼓励 你 花 一 点 时 间 理 解 各 种 办 法 。 可 能 有 些 技 
巧 你 没 匈 过 。 


如 果 输 入 格式 正确 的 下， 每 个 办 法 都 能 到 正确 的 结果 ， 但 是 如 果 输 入 别 的 数据 则 可 能 会 出 
错 。 如 果 数 据 是 不 规范 的 ， 可 能 就 需要 多 花 点 心思 。 除 此 之 外 ， 实 际 差别 在 于 效率 和 可 读 
性 。 就 可 读 性 而 言 ，#1 和 #13 似乎 是 最 好 理解 的 (尽管 效率 上 存在 巨大 的 差异 )。 同 样 易于 
理解 的 是 #3 和 #4 (类似 #1)， 以 及 #8 (类 似 #13)。 其 他 解法 都 太 过 复杂 了 。 


那么 效率 呢 ? 为 什么 不 同 的 解法 有 不 同 的 效率 ? 原因 在 于 NFA 的 工作 原理 (第 4 章 )，Perl 
的 各 种 正则 优化 措施 (第 6 章 )， 以 及 其 他 Perl 结构 的 处 理 速度 (例如 sprintf, 以 及 
substitution 运算 符 的 机 制 )。substitution 运算 符 的 /e 修饰 符 ， 有 时 候 虽 然 不 可 或 缺 ， 但 效率 
低 的 解法 似乎 都 使 用 了 它 。 


比较 #3 和 #4，#8 和 #14 很 有 意义 。 这 两 对 正则 表达 式 的 区 别 只 是 在 于 括号 一 一 没有 括号 的 
表达 式 要 比 有 括号 的 稍 快 一 点 。#8 使 用 ss 来 避免 括号 带 来 的 高 昂 代 价 PERE MIRAI CHE 
现 这 一 点 (7355), 


表达 式 编译 、/o 修饰 符 、qr/…/ 和 效率 


Regex Compilation, the fo Modifier, qi /, and Efficiency 


Perl 中 与 表达 式 效 率 相关 的 另 一 个 重点 是 , 程序 遇 到 正则 运算 符 之 后 , 在 实际 应 用 正则 表达 
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表 7-6: 填补 IP 地 址 的 若干 解法 
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if 
if 
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substr ($ip, 
substr ($ip, 
substr ($ip, 
substr ($ip, 
substr ($ip, 


b $) 
zs 1) 
e 1) 
6, 1) 
9,. 1) 


substr($ip,10, 1) 


$ip = sprintf ("%03d.%03d.%03d.%03d", 


$ip =~ m/*(\d+)\. (\d+)\. (\d+)\. (\d+)$/); 


Sip =~ s/\b(?=\d\b)/00/g; 
Sip =~ s/\b(?=\d\d\b) /0/g; 


$ip =~ s/\b(\d(\d?)\b)7$2 eq '' 


$ip =~ s/\d+/sprintf("%03d", $&)/eg; 


Sip =~ s/(?:(?<=\.)1%) (?=\d\b) /00/g; 
$ip =~ s/(?:(?<=\.)1*) (?=\d\d\b) /0/g; 


$ip =~ s/\b(\d\d?\b)/'0' 


x (3-length($1) ) 


$ip =~ s/\b(\d\b) /00$1/g; 
$ip =~ s/\b(\d\d\b) /0$1/g; 


$ip =~ s/\b(\d\d?\b) /sprintf("%03d", 


$ip =~ s/\b(\d{1,2}\b)/sprintf£("%03d", 


$ip =~ s/(\d+)/sprintf£("%03d", $1)/eg; 


? *00$1* 


= '0' while length(S$ip) < 


$1) /eg; 


eq '. 
eq '. 
eq '. 
eq '. 
eq '. 
eq '. 


15; 


$ip =~ m/\d+/g); 


Sip =~ m/(\d+)/q); 


"0$1"/eg; 


- $l1/eg; 


$1) /eg; 


$ip =~ s/\b(\d\d?(?!\d))/sprintf£("%03d", $1) /eg; 
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$ip =~ s/(?:(2?<=\.) 1^) (\d\d?(?!\d))/sprint£("%03d", $1)/eg; 


FCAT, Perl 必须 在 幕后 进行 预 处 理工 作 。 真 正 的 准备 工作 依赖 于 正则 运算 元 的 类 型 。 在 大 多 
数 情 况 下 ,正则 运算 元 是 正则 文字 ， 例 如 m/…/、s/…/…/ 或 sr/…/。Perl 必须 对 它们 进行 
幕后 处 理 ， 而 处 理 需 要 的 时 间 ， 如 果 可 能 应 该 尽力 避免 。 首 先 ， 让 我 们 来 看 要 做 的 事情 ， 

然后 讲解 如 何 避 免 。 
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预 处 理 正 则 表达 式 的 内 部 机 制 


预 处 理 正则 运算 元 的 机 制 在 第 6 章 有 所 涉及 (241)， 不 过 Perl 还 有 自己 的 处 理 。 
Perl 对 正则 运算 符 的 预 处 理 大 致 分 为 两 步 : 


1. 正则 文字 处 理 如 果 运 算 符 是 正则 文字 ， 就 按照 “正则 文字 的 解析 方式 ”(292) 中 的 描 
述 来 处 理 。 变 量 插值 就 发 生 在 这 一 步 。 


2. 正则 编译 检查 正则 表达 式 ， 如 果 符 合 规则 ,就 将 其 编译 为 适用 于 正则 引擎 实际 应 用 的 内 
在 状态 〈 如 果 不 符合 规则 ， 则 报错 )。 


正则 表达 式 编 译 完成 之 后 ， 就 能 够 实际 应 用 到 目标 字符 串 中 ， 参 见 第 4 到 第 6 章 。 


并 不 是 每 使 用 一 次 正则 运算 符 ， 就 需要 进行 一 次 预 处 理 。 但 是 正则 文字 第 一 次 使 用 时 ， 必 
须 进 行 预 处 理 ， 但 如 果 多 次 执行 同样 的 正则 文字 (例如 在 循环 中 ， 或 是 调用 多 次 的 函数 )， 
Perl 有 时 候 能 够 重用 之 前 的 工作 。 下 一 节 说 明了 Perl 如 何 做 到 这 一 点 ， 以 及 程序 员 可 以 使 
用 的 提高 效率 的 技巧 。 


减少 正则 编译 的 步骤 


下 面 几 节 中 我 们 会 见 到 Perl 避免 某 些 正则 文字 相关 预 处理 的 两 种 办 法 : 无 条 件 缓存 
(unconditional caching) 和 按 需 重 编译 (on-demand recompilation), 


无 条 件 缓存 


如 果 正 则 文字 中 没有 插值 变量 , Pel 就 知道 这 个 正则 表达 式 在 两 次 应 用 之 间 不 会 变化 , 所 以 
第 一 次 编译 完成 之 后 ， 会 保存 编译 的 形式 (“缓存 ")， 以 备 将 来 使 用 。 无 论 正则 表达 式 会 执 
行 多 少 次 ， 只 需要 检查 和 编译 一 次 。 本 书 中 的 大 多 数 正则 表达 式 都 没有 变量 插值 ， 因 此 从 
这 个 方面 来 说 效率 无 可 挑剔 。 


内 嵌 代 码 和 动态 正则 结构 中 的 变量 则 不 属于 此 类 ， 因 为 它们 不 会 插值 到 正则 表达 式 中 ， 而 
是 作为 正则 表达 式 执行 的 固定 代码 的 一 部 分 。 有 时 候 ， 你 可 能 希望 每 次 执行 都 解释 内 人 嵌 代 
码 中 引用 的 my 变量 ， 请 不 要 忘记 第 338 页 的 忠告 。 


有 一 点 要 说 清楚 ， 缓 存 的 持续 时 间 与 代码 的 执行 时 间 相 同 ， 下 次 运行 同样 代码 时 不 会 有 任 
何 的 缓存 。 
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按 需 重 编译 


并 不 是 所 有 的 正则 运算 元 都 能 够 直接 缓存 ， 比 如 下 面 的 代码 : 


my $today = (qw<Sun Mon Tue Wed Thu Fri Sat>)[(localtime)[6]]; 
# Stoday 保存 的 是 星期 数 ("Mon"， "Tue" 之 类 ) 


while (<LOGFILE>) { 
if (m/*$today:/i) I 
m/^$today:/ 中 的 正则 表达 式 需 要 插值 ， 虽 然 在 循环 中 使 用 ， 但 每 轮 循环 的 插值 结构 是 相 
同 的 。 所 以 一 再 重复 编译 同样 的 表达 式 的 效率 很 低 ， 所 以 Perl 会 自动 进行 简单 的 字符 串 检 
查 ， 比 较 本 次 和 上 次 插值 的 结果 。 如 果 相 同 ， 就 使 用 上 次 的 缓存 。 如 果 不 同 ， 就 重新 编译 
正则 表达 式 。 所 以 ， 对 比 缓存 值 并 重新 插值 尽 可 能 避免 了 相对 更 耗 时 的 编译 。 


这 样 究竟 能 节省 多 少时 间 呢 ?非常 多 。 举 例 来 说 ， 我 油 试 了 第 303 页 的 SHttpurl (使 用 扩 
展 的 SHostnameRegex) 的 三 种 预 处 理 方 式 。 设 计 的 性 能 测试 能 准确 体现 预 处 理 的 开销 (使 
用 插值 、 字 符 串 检查 、 编 译 ， 以 及 其 他 后 台 任 务 ) ， 而 不 是 表达 式 应 用 的 整体 开销 ， 因 为 在 
任何 情况 下 这 种 应 用 的 时 间 都 是 一 样 的 。 


结果 非常 有 意思 。 我 运行 了 没有 插值 的 版 本 (整个 正则 表达 式 都 硬 编码 在 m/…/ 中 )， 用 它 
作为 比较 的 基础 。 如 果 正 则 表达 式 每 轮 循环 不 会 改变 ， 比 较 并 插值 大 概 需要 25 倍 的 时 间 。 
完整 的 预 处 理 〈 每 轮 循环 都 要 重新 编译 ) 大 概 需要 1 000 倍 的 时 间 ， 这 数字 真 惊人 ! 


应 用 到 实际 场合 就 会 发 现 , 完整 的 预 处 理 即 使 比 静态 正则 文字 预 处 理 要 慢 1 000 倍 , 在 我 的 
机 器 上 也 只 需要 大 约 0.000 26 秒 (测试 的 速度 是 每 秒 3 846 te, 相反， 静态 正则 文字 预 处 理 
的 速度 是 每 秒 370 万 次 )。 当 然 ， 不 使 用 插值 能 够 节省 的 时 间 非 常 可 观 ， 不 进行 重 编译 节省 
的 时 间 显然 也 很 可 观 。 下 面 几 节 ， 我 们 会 考察 如 何在 更 多 情况 下 使 用 这 些 技巧 。 
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表示 “一 次 性 编译 ”的 /o 修饰 符 


简单 地 说 ， 如 果 正 则 文字 运算 元 中 使 用 了 /o 修饰 符 ， 它 就 会 只 会 检查 和 编译 一 次 ， 而 无 论 
是 否 包 含 插值 。 如 果 没 有 插值 ， 添 加 /o 不 会 有 任何 改变 ， 因 为 没有 插值 的 表达 式 总 是 会 自 
动 缓存 。 但 如 果 使 用 了 插值 ， 程 序 执行 第 一 次 遇 到 正则 文字 时 ， 会 进行 正常 的 完整 的 预 处 
理 ， 但 因为 /e 的 存在 ， 内 在 状态 会 存储 下 来 。 如 果 之 后 又 遇 到 这 个 正则 运算 元 ， 就 会 直接 
调用 缓存 。 


下 面 这 个 例子 之 前 也 出 现 过 ， 只 是 现在 添加 了 /o: 
my S$today = (qw<Sun Mon Tue Wed Thu Fri Sat>)[({(localtime) [6]]; 


while (<LOGFILE>) { 
if (m/*S$today:/io) { 
这 个 表达 式 要 快 得 多 ， 因 为 从 第 二 次 开始 的 每 轮 循 环 中 ， 正 则 表达 式 都 忽略 了 S$coday。 不 
需要 插值 ， 也 不 需要 预 处 理 和 重新 编译 正则 表达 式 ， 能 够 节省 大 量 的 时 间 ， 而 这 是 Perl 无 
法 自动 完成 的 ， 因 为 使 用 了 变量 插值 ，$today 可 能 会 变化 ， 所 以 为 了 安全 ，Perl 必须 每 次 
都 检查 。 使 用 /o 就 告诉 Perl， 在 第 一 次 预 处 理 和 编译 完成 之 后 “锁定 ”这 个 表达 式 。 因 为 
我 们 知道 ， 插 值 变 量 是 不 变 的 ， 即 使 变化 了 ， 也 不 希望 使 用 新 值 ， 所 以 这 样 做 完全 没 问题 。 


/o 的 潜在 “陷阱 


在 使 用 /o 时 ， 有 个 重要 的 “陷阱 ”必须 要 注意 。 例 如 下 面 这 个 函数 : 
sub CheckLogfileForToday () 
{ 
my S$today = (qw<Sun Mon Tue Wed Thu Fri Sat>)[(localtime) [6] ]; 


while (<LOGFILE>) { 
if (m/*Stoday:/io) { # aait jo 


aeons 


} 
} 
记 住 ，/o 表示 正则 运算 元 只 需要 编译 一 次 。 第 一 次 调用 checkLogfileForToday () 时 ， 代 
表 当 天 日 期 的 正则 运算 元 就 锁定 在 其 中 。 如果 过 了 一 段 时 间 再 次 调用 这 个 函数 ,即使 secoday 
变化 了 ， 也 不 会 重新 检查 ， 在 程序 执行 过 程 中 ， 每 次 使 用 的 都 是 最 开始 锁定 在 其 中 的 正则 
表达 式 。 


ill 
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这 个 问题 很 严重 ， 不 过 下 一 节 中 ，regex 对 象 提供 了 两 全 其 美的 解决 办 法 。 


用 regex 对 象 提 高 效率 


迄今 为 止 ， 我 们 看 到 的 所 有 关于 预 处 理 的 讨论 都 适用 于 正则 文字 。 其 目的 在 于 花 尽 可 能 少 
的 工夫 获得 编译 好 的 正则 表达 式 。 达 到 此 目的 的 另 一 个 办 法 是 使 用 regex 对 象 ， 把 编译 好 的 
正则 表达 式 封装 在 变量 内 部 供 程序 使 用 。 可 以 使 用 ar/…/ 创 建 regex 对 象 (7303), 


下 面 是 使 用 regex 对 象 的 例子 : 


sub CheckLogfileForToday () 
{ 
my Stoday = (qw<Sun Mon Tue Wed Thu Fri Sat>)[(localtime) [6]]; 


my $RegexObj = qr/*$today:/i; # 每 次 调用 编译 一 次 


while (<LOGFILE>) { 
if ($_ =~ §$RegexObj) { 


eat 


} 
} 
} 


每 调用 一 次 函数 ， 就 会 创建 一 个 新 的 regex 对 象 ， 但 是 之 后 它 只 是 直接 用 于 log 文件 的 每 一 
行 。 如 果 regex 对 象 用 做 运算 元 ， 它 不 会 进行 前 面 介 绍 的 任何 预 处 理 。 预 处 理 是 在 regex 对 
象 创建 而 不 是 使 用 时 进行 的 。 可 以 把 regex 对 象 想象 为 “自动 设 定 的 正则 缓存 ”"， 这 个 编译 
好 的 表达 式 可 以 在 任何 地 方 使 用 。 


这 个 办 法 兼 具 了 两 方面 的 优点 : 它 效率 高 ,， 因为 只 有 在 每 次 函数 调用 (而 不 是 log 文件 的 每 
一 行 ) 时 才 会 编译 ， 但 是 ， 与 之 前 错误 使 用 /o 的 例子 不 同 ， 即 使 多 次 调用 CheckLogfile- 
ForToday () ， 也 没有 问题 。 


需要 和 弄 清 楚 的 是 ,这 个 例子 中 出 现 了 两 个 正则 运算 元 。 正 则 运算 元 ar/…/ 并 不 是 一 个 regex 
对 象 ， 但 能 从 接收 的 正则 文字 创建 regex 对 象 。 然 后 这 个 对 象 用 作 循环 中 match 运算 符 =~ 
的 运算 元 。 


regex 对 象 配合 m/…/ 
这 段 程序 : 

if ($_ =~ $RegexObj) { 
也 可 以 这 样 写 : 


if (m/$RegexObj/) { 


L 
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此 时 已 经 不 是 普通 的 正则 文字 了 ， 尽 管 看 上 去 没有 区 别 。“ 正 则 文字 ”的 内 容 就 是 regex 对 
象 ， 它 与 直接 使 用 regex 对 象 一 样 。 这 种 做 法 的 好 处 在 于 : m/…/ 更 为 常见 ， 更 容易 使 用 。 
也 不 用 明确 指定 目标 字符 串 $_， 方 便 与 其 他 使 用 同样 默认 变量 的 运算 符 结合 。 最 后 一 个 原 
因 是 ， 这 样 我 们 能 够 对 regex 对 象 使 用 /g。 


/o 配合 qr/*…/ 


/o 修饰 符 可 以 配合 qr/…/，, 但 在 这 里 你 肯定 不 希望 如 此 。 就 像 用 /o 配合 其 他 任何 正则 运算 
符 一 样 , qr/…/o 在 第 一 次 使 用 正则 表达 式 时 就 会 进行 锁定 , 所 以 如 果 这 样 写 , 无 论 scoday 
如 何 变化 ,每 次 调用 这 个 函数 SRegexobj 使 用 的 都 是 同样 的 regex 对 象 。 这 与 第 352 页 的 
m/…/o 的 问题 一 样 。 


依靠 默认 表达 式 提高 效率 


正则 运算 符 的 默认 表达 式 (7308) 可 以 提高 效率 ， 尽 管 使 用 regex 对 象 可 能 更 划算 。 不 过 
我 还 是 会 简要 介绍 一 番 。 例 如 : 
sub CheckLogfileForToday () 
{ 
my Stoday = (qw<Sun Mon Tue Wed Thu Fri Sat>)[(localtime) [6}}; 


# 直到 匹配 为 止 ， 设 置 默 认 表 达 式 


Sun:" =~ m/*Stoday:/i or 
"Mon:" =~ m/*S$today:/i or 
"Tue:" =~ m/*$today:/i or 
"Wed:" =~ m/*$today:/i or 
“Thu:* =~ m/*$today:/i or 
“Fri:" =~ m/*S$today:/i or 
"Sat:" =~ m/*$today:/i; 


while (<LOGFILE>) { 
if (m//) { # 使 用 默认 的 表达 式 


serere 


} 
} 
} 


使 用 默认 正则 表达 式 的 关键 在 于 ， 只 有 匹配 成 功 才 会 设置 默认 值 ， 所 以 Stoday 设置 之 后 还 
有 长 长 的 代码 。 你 已 经 看 到 ， 这 相当 不 美观 ， 所 以 我 不 推荐 这 么 做 。 
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理解 “原文 ”副本 


Understanding the “Pre-Match” Copy 


在 匹配 和 替换 时 ，Perl 有 时 必须 动用 额外 的 空间 和 时 间 来 保存 目标 字符 串 在 匹配 之 前 的 副 
本 。 我 们 会 看 到 ， 有 时 这 个 副本 会 用 于 支持 重要 特性 ， 有 时 则 不 会 。 应 该 尽量 避免 不 会 用 
到 的 副本 ， 提 高 效率 ， 尤 其 是 在 目标 字符 串 很 长 ， 或 者 速度 非常 重要 的 情况 下 更 是 如 此 。 


下 一 节 我 们 会 讲解 何 时 以 及 为 什么 Pel 可 能 会 保存 目标 字符 串 的 原文 副本 ， 什 么 时 候 用 到 
副本 ， 以 及 在 效率 极端 重要 时 ， 如 何 取消 这 个 副本 来 提高 效率 。 


通过 原文 副本 支持 $1、S$&、S$'、S+t* 


对 于 match 或 者 substitution 操作 的 目标 字符 申 ，Perl 会 生成 一 个 原文 副本 、 以 支持 $1、$& 
之 类 匹配 后 的 变量 (7299), 每 次 匹配 完成 之 后 ，Perl 不 会 实际 生成 这 些 变 量 ， 因 为 许多 变 
量 (还 有 可 能 是 所 有 ) 根本 不 会 被 程序 用 到 。 相 反 ，Perl 只 是 保存 原始 字符 串 的 副本 ， 记 件 
各 种 匹配 发 生 在 原来 文本 中 的 位 置 , 在 使 用 $1 之 类 变量 时 通过 位 置 来 引用 。 这 种 办 法 不 错 ， 
工作 量 小 , 因为 多 数 情况 下 都 不 会 用 到 某 些 甚 至 全 部 的 匹配 后 的 变量 。 这 种 “延迟 求 值 (lazy 
evaluation)” 能 避免 许多 不 必要 的 工作 。 


尽管 延迟 创建 $1 之 类 的 变量 能 够 节省 工作 量 ， 但 保存 目标 字符 串 的 副本 仍然 需要 成 本 。 而 
这 是 必要 的 吗 ? 为 什么 不 能 直接 使 用 原来 的 文本 ? FSX: 
SSubject =~ s/*(?:Re:\s*)+//; 


这 样 ，$& 正 确 地 引用 了 $subject 中 删除 的 文本 ， 但 因为 它 已 经 从 $Subject 中 删除 ， 在 后 
面 用 到 $s 时 ，Perl 不 能 从 $subject 中 引用 这 段 文本 。 下 面 的 代码 情况 相同 ; 
if ($Subject =~ m/*SPAM:(.+)/i) { 
$Subject = "-- spam subject removed --"; 


$SpamCount {$1}4++; 
} 


引用 $1 时 ， 原 来 的 SSsubject CAMRY. ATLA, Perl 必须 保存 原文 副本 。 


原文 副本 并 非 时 时 必须 


在 实践 中 ， 原 文 副本 的 主要 “用 户 ” 是 $1、$2、$3 之 类 的 变量 。 但 是 如 果 正 则 表达 式 不 包 


L 
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含 捕获 型 括号 呢 ? 那样 就 不 必 担 心 $S1 之 类 了 , 所 以 完全 不 必 考 虑 如 何 支 持 它们 。 所 以 至 少 ， 
不 包含 捕获 型 括号 的 正则 表达 式 可 以 不 必 保 存 拷贝 ? 答案 是 未 必 。 


不 宜 使 用 的 变量 sg 和 s 


$'、$&、$' 这 三 个 变量 与 捕获 型 括号 无 关 。 它 们 分 别 对 应 到 匹配 文本 之 前 的 部 分 ， 匹 配 文本 
和 匹配 之 后 的 部 分 ， 其 实 可 以 应 用 于 每 一 次 match 和 substitution, Perl 不 能 预先 知道 某 个 匹 
配 中 是 否 会 用 到 这 些 变量 ， 所 以 每 次 都 必须 保存 原文 副本 。 


听 起 来 ， 似 乎 没有 办 法 省 略 副本 ， 但 是 Pen 足够 聪明 ， 它 能 够 认识 到 ， 如 果 这 些 变量 不 会 
出 现在 程序 中 ， 就 根本 没 必要 (甚至 在 任何 可 能 用 到 的 library 之 中 ) 保存 副本 来 提供 支持 。 
所 以 ， 如 果 没 有 用 到 捕获 型 括号 ， 再 避免 出 现 $、s$s 和 5 ?就 能 省 略 原 文 副本 一 一 这 是 很 棒 的 
优化 ! 只 要 在 程序 中 的 任何 一 处 用 到 了 $*、$&g 和 $' 三 者 之 一 ， 整 个 优化 即 告 失效 。 这 可 不 够 
意思 ! 所 以 ， 我 认为 这 些 变量 是 “不 宜 使 用 (naughty)” 的 。 


原文 副本 的 代价 有 多 高 


我 进行 了 简单 的 性 能 测试 ， 对 Perl 源 代码 的 130 000 行 C 程序 中 的 每 一 行 检查 m/c/。 这 个 
性 能 测试 仅仅 检测 哪 一 行 出 现 了 字符 “c" 。 测 试 的 目的 是 衡量 原文 副本 的 影响 。 我 用 两 种 
方法 进行 测试 : 一 种 肯定 没有 用 到 原文 副本 ， 一 种 肯定 用 到 了 。 因 此 ， 唯 一 的 区 别 就 在 于 
保存 副本 的 开销 。 


保存 原文 副本 的 程序 所 用 的 时 间 要 长 40%。 这 代表 了 “平均 最 差 情 况 "， 这 样 说 是 因为 性 能 
测试 并 没有 进行 什么 实质 性 的 操作 ， 否 则 二 者 之 间 的 时 间 相对 比例 会 减 小 (其 至 显得 微 不 
TE), 


另 一 方面 ， 在 真正 的 最 坏 情况 下 ， 额 外 副本 可 能 真 的 占据 非常 重要 的 比重 。 我 对 同样 的 数 
据 运行 同样 的 程序 ， 但 是 这 次 将 所 有 超过 3.5MB 的 数据 都 放 在 一 行 中 ， 而 不 是 长 度 合适 的 
130 000 行 。 这 样 就 能 比较 单 次 匹配 的 相对 表现 。 不 使 用 原文 副本 的 匹配 几乎 是 立刻 就 得 到 
了 结果 ， 因 为 第 一 个 “< ”字符 离开 头 不 远 ， 匹 配 之 后 程序 就 运行 结束 。 而 使 用 原文 副本 的 
程序 运行 原理 差不多 , 只 是 它 会 首先 拷贝 整个 字符 串 。 它 所 用 的 时 间 大 约 是 前 者 的 7 000 倍 。 
因此 我 们 知道 ， 避 免 使 用 某 些 结构 能 够 提高 效率 。 
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避免 使 用 原文 副本 


如 果 Perl 能 够 领会 程序 员 的 意图 ， 只 在 需要 的 情况 下 保存 副本 ， 当 然 很 好 。 但 请 记 住 ， 这 
些 副本 并 不 是 “败笔 ”一 一 Perl 在 葛 后 处 理 这 些 繁琐 事务 是 我 们 选择 Perl, 而 不 是 C 或 者 汇 
编 语言 的 原因 。 WKE, Pel 最 初 只 是 为 了 把 用 户 从 繁杂 的 机 制 中 解放 出 来 , 这 样 他 们 只 需 
要 关注 问题 的 解决 方案 就 好 了 。 


永远 不 要 使 用 不 宜 使 用 的 变量 。 同 样 ， 尽 可 能 避免 额外 的 工作 也 是 不 错 的 。 首 先 想到 的 就 
是 ,永远 不 要 在 代码 中 使 用 $*、$g 和 s$'。 通 常 ，$& 很 容易 消除 一 一 把 正则 表达 式 包 围 在 一 个 
捕获 型 括号 内 ， 然 后 使 用 $1 即 可 。 举 例 来 说 ， 把 HTML tag 转换 为 小 写 时 ， 不 使 用 
s/<\w+>/\L$&\E/g， 而 使 用 s/(<\w+>)/\L$1\E/g, 


如 果 保 存 了 原始 目标 字符 申 ， 就 可 以 很 容易 地 模拟 $$ 和 $s。 匹配 某 个 arget 字符 串 之 后 ， 可 
以 按 下 面 的 规则 来 模拟 ; 





Vr A A y A aR T Sa 
Dep 





$` substr (target, 0, $- [0] ) 
$& substr (target, $- [0], $+[0]-$-[0]) 
$’ substr (target, $+[0]) 


因为 e- 和 e+ (302) 保存 的 是 原始 目标 字符 串 中 的 位 置 ， 而 不 是 确切 的 文本 ， 使 用 它们 不 需 
要 担心 效率 问题 。 


我 还 给 出 了 $& 的 模拟 。 相 对 使 用 捕获 型 括号 和 $1 的 办 法 ， 这 可 能 是 一 个 更 好 的 办 法 ， 这 样 
完全 不 必 使 用 任何 捕获 型 括号 。 请 记 住 ， 避 免 使 用 $& 之 类 变量 的 目的 就 在 于 ， 如 果 表 达 式 
中 没有 出 现 捕获 型 括号 ， 要 避免 保存 原始 副本 。 如 果 修 改 程序 ， 去 掉 $&， 再 对 每 个 匹配 都 
增加 捕获 型 括号 ， 就 不 会 节省 任何 时 间 。 


不 要 使 用 不 宜 使 用 的 模块 。 当 然 ， 避 免 S'、s&、5' 也 意味 着 避免 使 用 调用 它们 的 模块 。Perl 
的 核心 模块 中 ， 除 English 之 外 都 没有 使 用 它们 。 如 果 你 希望 使 用 English 模块 ， 可 以 这 
样 : 


use English '-no_match_vars'; 
这 样 就 没有 问题 了 。 如 果 你 从 CPAN 或 者 其 他 地 方 下 载 了 模块 ， 你 可 能 需要 检查 一 番 ， 看 


看 它们 是 否 使 用 了 这 些 变量 。 请 参考 下 一 页 的 补充 内 容 ， 里 面 有 些 诀窍 ， 告 诉 你 如 何 判断 
程序 是 否 用 到 了 这 些 变量 。 
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如 何 检查 代码 是 否 包含 S& 


判断 程序 是 否 使 用 了 不 宜 使 用 的 变量 S$'、$& 和 S$'， 并 不 是 件 容易 的 事情 ， 尤 其 使 用 库 汉 
数 时 更 是 如 此 ， 但 还 是 有 几 个 办 法 来 判断 。 最 简单 的 是 ， 如 果 你 的 二 进 制程 序 在 编译 
时 指定 了 -DDEBUGGING 和 参数， 就 可 以 使 用 -c 和 -Mre=debug 参数 (7361), RRA 
的 结尾 ,找到 包含 "Enabling $'、$& 和 $' support’ 或 者 Omitting $',$& 和 $'aupport ’ 
的 那 一 行 。 如 果 见 到 前 面 的 文字 ， 就 表示 使 用 了 这 些 变量 。 


另 一 种 可 能 (但 不 太 现实 ) 的 情况 是 ， 程 序 在 eval 语句 中 使 用 了 这 些 变量 ， 如 果 没 
有 实际 运行 ，Perl 不 知道 的 是 否 使 用 了 这 些 变 量 。 解 决 办 法 之 一 就 是 安装 CPAN 
(http//www.cpan.org) 的 Devel:SawAmpersand Package: 


END { 
require Devel: :SawAmpersand; 
if (Devel: :SawAmpersand::sawampersand) { 
print “Naughty variable was used!\n"; 
} 
} 


5 Devel: : SawAmpersand 一 起 的 还 有 Devel: :FindAmpersand, 这 个 package he -4 
诉 用 户 有 问题 的 代码 的 位 置 。 不 幸 的 是 ， 对 最 新 版 本 的 Perl， 它 不 能 保证 完全 正确 。 


这 两 个 package 的 安装 都 不 简单 ， 所 以 要 做 的 事 没准 很 多 (请 参考 http/regex.info/t 
找 可 能 的 更 新 )。 


用 查找 性 能 损失 的 办 法 找 出 问题 代码 的 办 法 也 值得 一 看 : 
use Time: :HiRes; 
sub CheckNaughtiness ( ) 
my $text = 'x' x 10_000; # 创建 一 定量 的 数据 


# HERMA 

my $start = Time::HiRes::time(); 

for (my $i = 0; $i < 5_000; $i++) { } 

my Soverhead = Time::HiRes::time() - $start; 


+ 计算 同样 次 数 匹配 的 开销 

Sstart = Time::HiRes::time(); 

for (my $i = 0; $i < 5_000; $i++) { $text =~ m/*/ } 
my $delta = Time::HiRes::time() - $start; 


# 计算 差 值 
printf “It seems your code is $s (overhead=%.2f, delta=%.2f)\n", 
($delta > Soverhead*5) ? "naughty" : "clean", Soverhead, $delta; 





til 
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Study 函数 


The Study Function 


与 优化 正则 表达 式 本 身 不 同 ，study (…) 优化 了 对 特定 字符 串 的 某 些 检索 。 一 个 字符 串 在 
study 之 后 ， 应 用 到 它 的 (一 个 或 多 个 ) 正则 表达 式 可 以 从 缓存 的 分 析 数 据 中 受益 。 一 般 
是 这 样 使 用 的 : 
while (<>) 
{ 
study ($R); # 匹配 之 前 Study 默认 的 目标 字符 事 $_ 
if (m/regex 1/) { + } 
if (m/regex 2/) {== } 
if (m/regex 3/) {= } 
if (m/regex 4/) { … } 
} 
study 的 作用 很 简单 ， 但 是 理解 它 什么 情况 下 有 价值 却 不 简单 。 它 不 会 影响 到 程序 的 任何 
值 和 任何 结果 ,唯一 的 影响 就 是 ，Perl 会 使 用 更 多 的 内 存 ， 总 的 执行 时 间 可 能 会 增加 , 保持 
不 变 ， 或 者 减少 (这 是 我 们 预期 的 )。 


study 一 个 字符 串 时 ，Perl 会 分 配 时 间 和 内 存 来 记录 字符 串 中 的 一 系列 位 置 (在 大 多 数 系统 
中 ， 需 要 的 内 存 是 字符 串 大 小 的 4 倍 ) 。 在 字符 串 修 改 之 前 ， 针 对 此 字符 串 的 每 次 匹配 都 可 
以 从 中 受益 。 对 字符 串 的 任何 修改 都 会 导致 study 数据 的 失效 ， 相 当 于 study 另 一 个 字符 
申 。 


Study 能 给 目标 字符 串 提供 的 帮助 ， 很 大 程度 上 取决 于 用 来 匹配 的 正则 表达 式 ， 以 及 Perl 
能 够 使 用 的 优化 。 例 如 用 m/foo/ 检 索 文本 ， 如 果 使 用 了 study ， 速 度 会 提升 很 多 (如 果 字 
符 串 更 长 ， 甚 至 可 能 提高 10000 倍 )。 但 是 ， 如 果 使 用 了 /i， 就 不 会 有 这 种 效果 ， 因 为 /i 
不 会 利用 study 的 结果 (和 其 他 优化 )。 


不 应 该 使 用 study 的 情况 


。 ”如 果 只 使 用 /i, 或 是 所 有 正则 文字 都 受 '(?i) ,或 '(?i:…), 作 用 , 就 不 应 该 对 字符 串 使 
用 study， 因 为 它们 不 能 从 study 中 受益 。 


。 ”如 果 目 标 字符 申 很 短 ， 也 不 应 该 使 用 study。 因 为 此 时 ， 正 常 的 固定 字符 串 识别 优化 
(7247) 已 经 足够 了 。 那 么 “ 短 ” 究 竟 如 何 界定 昵 ? 字符 串 的 长 度 没有 确切 的 标准 ， 
所 以 具体 来 说 ， 只 有 进行 性 能 测试 才能 判断 study 是 否 有 益 。 不 过 权衡 利 上 新 ， 我 通常 
不 使 用 study， 除 非 字 符 串 的 长 度 为 若干 KB。 
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如 果 你 只 希望 在 修改 之 前 ， 或 是 study 不 同 的 字符 串 之 前 ， 对 目标 字符 串 进 行 少数 几 次 匹 
配 ， 请 不 要 使 用 study。 如 果 要 获得 真正 的 性 能 提升 ， 必 须 是 多 次 匹配 节省 下 来 的 时 间 长 
于 study 的 时 间 。 如 果 匹 配 次 数 较 少 ， 花 在 study 身上 的 时 间 抵 不 上 节省 的 时 间 ， 得 不 偿 
失 。 


只 对 期 望 使 用 包含 “独立 出 来 的 ”文字 (255) 的 正则 表达 式 搜索 的 字符 串 使 用 study, 
如 果 不 知道 匹配 中 必须 出 现 的 字符 ，stuGy 就 派 不 上 用 场 (看 了 这 几 条 ， 也 许 你 会 认为 ， 
study 对 index 函数 有 益 ， 但 事实 并 非 如 此 )。 


什么 时 候 使 用 study 


最 适合 使 用 study 的 情况 就 是 ， 目 标 字符 串 很 长 ， 在 修改 之 前 会 进行 许多 次 匹配 。 一 个 简 
单 的 例子 就 是 我 在 写作 本 书 时 所 用 的 过 滤器 。 我 用 自己 的 标记 法 写 稿 ， 然 后 用 过 滤器 转换 
Ay SGML (再 转换 为 ro 六 ， 再 转换 为 PostScript)。 经 过 过 滤器 内 部 ,一 整 章 变 为 一 个 大 字符 
R (例如 ， 本 章 的 大 小 为 475KB)。 在 退出 之 前 进行 多 项 检查 来 保证 不 会 漏 过 错误 的 标记 。 
这 些 检 查 不 会 修改 字符 串 ， 它 们 通常 查找 固定 长 度 的 字符 串 ， 所 以 它们 很 适合 于 study, 


性 能 测试 


Benchmarking 


如 果 你 真 的 关心 效率 ， 最 好 的 办 法 就 是 进行 性 能 测试 。Perl 自 带 的 Benchmark 模块 提供 了 
详细 的 文档 ("perldoc Benchmark")。 可 能 是 习惯 使 然 , 我 更 喜欢 从 自己 动手 写 性 能 测试 : 


use Time::HiRes 'time'; 
我 把 希望 测试 的 内 容 简 单 包装 成 : 


my $start = time; 
my $delta = time - $start; 
printf "took %.1f seconds\n", $delta; 
性 能 测试 的 重要 问题 包括 ， 确 保 性 能 测试 进行 了 足够 多 的 工作 ， 显 示 的 时 间 真 正 有 意义 ， 
尽 可 能 多 地 测试 希望 的 部 分 ， 尽 可 能 少 地 测试 不 希望 的 部 分 。 在 第 6 章 有 详细 的 讲解 
(232)。 找 到 正确 的 油 试 方法 可 能 得 花 些 时 间 ， 但 是 结果 可 能 非常 有 价值 ， 也 很 值得 。 
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正则 表达 式 调试 信息 


Regex Debugging Information 


Perl 提供 了 数量 众多 的 优化 措施 ， 期 望 能 够 尽 可 能 快 地 找到 匹配 ， 第 6 章 的 “常见 优化 措 
W” (7204) 介绍 了 基础 的 措施 ， 但 还 有 许多 其 他 的 措施 。 大 多 数 优化 只 能 应 用 于 专门 的 
情况 ， 所 以 特定 正则 表达 式 只 能 从 其 中 的 某 一 些 (甚至 是 没有 ) Riz. 


Perl 的 调试 模式 (debugging mode) 能 提供 优化 的 信息 。 在 正则 表达 式 第 一 次 编译 时 ，Perl 
会 选择 这 个 正则 表达 式 所 使 用 的 优化 措施 ， 而 调试 模式 会 显示 其 中 的 一 部 分 。 调 试 模式 同 
样 可 以 告诉 我 们 引擎 是 如 何 应 用 表达 式 的 。 仔 细 分 析 这 些 调试 信息 不 属于 本 书 的 范围 ， 但 
我 会 在 这 里 给 出 简要 介绍 。 


在 程序 中 可 以 通过 use re 'debug'; 来 显示 调试 信息 ， 用 no re 'daebug' ;来 关闭 (EX 
曾 出 现 过 编译 指示 use re， 根 据 不 同 的 参数 ， 启 用 或 禁用 插值 变量 中 的 内 嵌 代 码 口 337 ) 。 


如 果 和 希望 在 整个 脚本 中 启用 此 功能 ， 可 以 使 用 命令 行 参数 -Mre=debug。 这 很 适合 检查 单个 
的 正则 表达 式 的 编译 方法 。 下 面 是 一 个 例子 (只 保留 了 相关 的 行 ): 

% perl -cw -Mre=debug -e 'm/*Subject: (.*)/' 

Compiling REx '*Subject: (.*)' 

rarest char j at 3 


1: BOL{2) 
2: EXACT <Subject: >(6) 


12: END (0) 
anchored 'Subject: ' at 0 (checking anchored) anchored(BOL) minlen 9 
Omitting $' $& $' support. 
在 @ 处 从 shell 提示 符 启动 perl, 使 用 命令 行 参数 -c (意思 是 检查 脚本 , 而 不 是 确切 执行 它 )， 
-w (如 果 Perl 对 代码 存 有 疑问 ， 就 会 发 出 警报 ) ， 以 及 -Mre=daebug 启用 调试 。-e 表示 下 面 
的 参数 “m/^Subject:…(.*)/” 是 一 段 Perl 代码 ， 需 要 运行 或 者 检查 。 


@ 行 报告 表达 式 固 定 长 度 的 字符 串 中 “出 现 频率 最 低 ” 的 字符 (H Perl 猜测 )。Perl 根据 这 
一 点 进行 某 些 优化 (例如 预 查 所 需 字符 / 子 串 245)。 
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第 @ 到 @ 行 表示 Perl 编译 好 的 正则 表达 式 。 因 为 篇 幅 的 原因 , 我 们 在 这 里 不 会 花 太 多 的 工夫 。 
不 过 ， 即 使 是 随便 看 看 ， 第 @ 行 也 不 难 理解 。 


第 @ 行 对 应 大 多 数 行为 。 可 能 显示 的 信息 包括 : 


Anchored 'string' at offset 


它 表 示 匹 配 必须 包含 某 个 字符 串 ， 此 字符 串 在 匹配 中 的 偏 移 值 为 offset。 如 果 s 紧 跟 在 
'String ' 之 后 ， 那 么 string 是 匹配 结尾 的 元 素 。 


floating 'string' at from..to 


它 表 示 匹 配 必 须 包 含 某 个 字符 串 , 此 字符 串 在 匹配 中 处 于 从 from (开始 ) 到 to (结束 ) 
中 的 任意 位 置 。 如 果 $ 紧 跟 在 'Sitring ' 之 后 ，string 是 匹配 结尾 元 素 。 


stclass ‘list’ 
它 表 示 匹 配 可 能 的 开始 字符 。 
anchored (MBOL), anchored(BOL), anchored (SBOL) 


说 明 表 达 式 以 “| 开头 。MBOL 说 明 使 用 了 /m 修饰 符 ，BoL 和 sBoL 表示 没有 使 用 (BOL 
和 SBOL 的 区 别 在 现代 Perl 中 没有 意义 。sBoL 与 S* 变 量 有 关 ， 而 此 变量 已 被 废弃 了 ) 。 


anchored (GPOS) 
说 明正 则 表达 式 以 \G: 开 头 。 
implicit 
说 明 anchored (MBOL) 是 由 Perl 隐 式 添加 的 ， 因 为 正则 表达 式 以 .* ;开头 。 
minlen length 
代表 匹配 成 功 的 最 小 长 度 。 
with eval 
PEAR BEARDS (O eN RÆ O?O 


第 信行 与 正则 表达 式 无 关 ， 只 有 当 二 进 制 代码 中 的 编译 启用 了 -DDEBUGGING 时 才 会 出 现 。 
如 果 启 用 ， 在 载 人 整个 程序 之 后 ，Perl 会 报告 是 否 启用 了 对 $& 等 变量 的 支持 (7356). 


运行 时 调试 信息 
我 们 知道 如 何 利用 内 嵌 代 码 获 得 匹配 的 运行 信息 (7331), 但 是 Perl 的 正则 表达 式 调试 可 


以 提供 更 多 的 信息 。 如 果 去 掉 表示 “ 仅 编译 ”的 -c 选项 ，Penl 会 提供 更 多 关于 匹配 运行 细 
市 的 信息 。 


iti 
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出 现 “Macch rejected by optimizer, ”表示 某 种 优化 措施 让 传动 装置 认识 到 ， 这 个 正 
则 表达 式 永远 无 法 在 目标 字符 串 中 匹配 ， 所 以 会 忽略 任何 尝试， 下 面 是 一 个 例子 : 


% perl -w -Mre=debug -e '"this is a test" =~ m/*Subject:/;' 


Did not find anchored substr 'Subject:'? 
Match rejected by optimizer 
如 果 启 用 了 调试 功能 ， 用 户 可 以 看 到 所 有 用 到 的 正则 表达 式 的 调试 信息 ， 而 不 只 限于 用 户 
提供 的 正则 表达 式 。 例 如 : 
% perl -w -Mre=debug -e ‘use warnings' 
.大 量 调 试 信息 ... 


它 没有 进行 任何 操作 ， 只 是 装载 了 warning 模块 ， 但 是 因为 这 个 模块 包含 正则 表达 式 ， 我 
们 仍然 会 见 到 许多 调试 信息 。 


显示 调试 信息 的 其 他 办 法 


我 已 经 提 到 ， 可 以 使 用 “use re 'debug';” 或 -Mre=debug 来 启用 正则 表达 式 的 调试 。 不 
过 ， 如 果 把 所 有 的 debug 替换 为 debugcolor， 而 终端 又 支持 ANSI 转 义 控制 字符 (ANSI 
terminal control escape Sequences) ， 输 出 的 信息 就 会 以 高 亮 标记 ， 更 容易 阅读 。 


另 一 个 办 法 是 ， 如 果 Perl 二 进 制 代码 在 编译 时 启用 了 调试 支持 ， 可 以 使 用 命令 行 参数 -Dr 
来 表示 -Mre=debug。 


结语 


Final Comments 


RANA CCAR Perl 的 正则 表达 式 中 ， 本 章 的 开头 我 曾 提 到 ， 这 是 有 充分 理由 的 。 

Perl 之 父 Larry Wall ， 完 全 是 按照 常识 和 发 明 的 动力 【Mother of Invention) 来 做 的 。 是 的 ， 

Perl 的 正则 表达 式 实 现 也 有 自己 的 问题 ,但 是 我 仍然 愿意 醉心 于 Perl 正则 语言 丰富 的 功能 ， 
及 其 与 Perl 其 他 部 分 的 融合 。 


当然 , 我 热情 而 不 盲目 一 一 Perl 并 没有 提供 某 些 我 希望 的 特性 。 本 书 第 1 版 渴望 的 某 些 特性 
现在 已 经 添加 了 ， 我 会 继续 提出 要 求 ， 希 望 Perl 会 继续 添加 。 相 对 于 其 他 实现 ，Perl RA 
需 提供 的 功能 是 命名 捕获 (138)。 本 章 给 出 了 模拟 的 办 法 ， 但 还 存在 若干 限制 。 提 供 内 
建 支持 是 最 好 的 解决 办 法 。 如 果 能 提供 字符 组 集合 运算 (7125) 也 很 好 ， 虽 然 目前 可 以 费 
点 周折 用 顺序 环视 来 模拟 (7126), 
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然后 是 占有 优先 量词 (7142), Perl 的 固化 分 组 提供 了 更 多 的 完整 功能 , 但 是 在 某 些 情况 下 
占有 优先 量词 的 解法 更 清楚 更 美观 。 所 以 ， 两 种 办 法 我 都 喜欢 。 事 实 上 ， 还 有 两 个 我 喜欢 
两 个 相关 结构 ， 目 前 还 没有 任何 流派 提供 。 其 中 之 一 是 “cut” 操 作 ， 或 者 叫 \v,， 它 会 立 
刻 清 除 当前 存在 的 所 有 保存 状态 (这 样 ，x+\vi 就 等 于 x++ 或 者 '(?>x+)1)。 另 一 个 结构 用 
来 禁止 传动 装置 的 任何 进一步 的 操作 。 它 的 意思 是 “要 么 在 当前 路 径 找到 一 个 匹配 ， 要 么 
就 不 容许 任何 匹配 ， 没 有 其 他 可 能 .。” 可 能 用 “Vi 来 表示 比较 好 。 


还 有 个 与 \w 有 关 的 想法 ,我 认为 在 传动 装置 中 添加 通用 的 钧 子 功能 (general hooks) 是 有 
用 的 ， 这 样 第 335 页 的 程序 就 可 以 大 大 化 简 。 


最 后 要 说 的 是 ， 我 在 第 337 页 曾经 提 到 ， 在 内 嵌 代 码 插值 到 正则 表达 式 时 ， 提 供 更 多 的 控 
制 是 非常 有 用 的 。 


Perl 当然 不 是 理想 的 正则 表达 式 语 言 ， 但 它 很 接近 这 个 目标 ， 而 且 一 直 在 进步 。 
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Java 


Java 


Á 2002 年 早期 发 布 的 Java 1.4.0 以 后 ，Java 就 内 建 了 正则 表达 式 包 ，java.util.regex， 
它 的 API 毫 不 复杂 (可 以 称 得 上 简单 ) ， 提 供 了 强大 而 有 创意 的 功能 。 对 Unicode 的 支持 很 
棒 ， 文 档 很 清晰 ， 运 行 速度 也 很 快 。 它 能 够 用 来 匹配 CharSequence HR, MEREK 
非常 方便 。 


sjava.util.regex EETA ERT 它 的 功能 、 速度 和 正确 性 都 达到 了 非 
常 高 的 水 平 ， 尤其 是 对 初次 发 软件 来 说 ， 更 是 如 此 。 Java 1.4 的 最 终 版 本 是 1.4.2。 写 作 
本 书 时 ，Java 1.5.0 (也 叫 java 30) EGR Ws (也 叫 Java 6.0) 已 经 发 布 了 第 
二 个 beta 版 本 。 ABER ir ava eo Java 1.4.2 或 Java 
1.6.0 之 间 的 重要 差异 【这些 差 异 ED ( 注 1)。 



















与 之 前 各 章 的 联系 





在 阅读 本 章 之 前 ， i 
关心 Java 的 读者 可 能 会 直 粮 所 3 错过 前 言 和 开头 儿 章 的 内 容 : 
第 1、2、3 章 介绍 了 正则 表达 4. 5, 6 章 包含 了 理解 正则 
表达 式 的 关键 知识 ， 它 位 可 以 前 5 mt Ny 开头 几 章 讲 解 的 重要 概念 
包括 NFA 3/908 CAERS he Mea 


5 6 章 介 绍 的 所 有 知识 。 有 些 只 








Sa AR te S va pe, 
注 1 本 书 可 以 壬 用 于 Java 15.0 Update 7, Java 1.5 HRA R AMITA PION; HRA 
AEF bug, Update? HA TRAM, Mtoe tho Java RRMT EC, RAMA, 
Java 1.6 beta 的 信息 针对 当前 发 beta2, build59g 版 。 
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表 8-1: 方法 名 索引 ( 按 字母 、 页 码 排序 ) 


















matcher 
376 matcher (Matcher) 
395 matcher (Pattern) 


appendReplacement 
381 appendTail 
372 compile 


replaceFirst 
390 reguireEnd 
392 reset 


377 end 393 pattern(Matcher) [395 split 

375 find 394 pattern(Pattern) |377 start 

394 flags 395 quote 394 text 

377 group 379 QuoteReplacement |377 toMatcheResult 


377 groupCount 386 region 

386 regionEnd 
386 regionStart 
378 replaceAll 


replaceAllRegion 


393 toString(Matcher) 
394 toString(Pattern) 
388 useAnchoringBounds 
393 usePattern 
useTransparentBounds 


388  hasānchoringBounds 
387 hasTransparentBounds 
390 hitEnd 

lookingAt 














这 张 表格 供 简要 查询 ， 详 细 的 APE 讲 解 从 第 371 FPR, 


在 这 里 我 还 是 要 强调 ， 尽 管 第 367 页 的 表格 覃 阅 起 来 很 方便 鲍 3 章 第 114 和 第 123 页 的 
表格 也 是 如 此 ， 但 本 书 的 目的 不 是 作为 参 萎 手册 > 而 是 ASE "WiE 则 表达 式 的 详细 教程 。 


前 面 几 章 已 经 出 现 过 java- ütil.regexMI AF (81、95、98、217、235)， 本 章 在 讲解 
各 种 类 及 其 实际 应 用 时 会 给 出 更 多 的 例子 。 不 过 ,首先 还 是 来 看 Java 支持 的 正则 流派 ， 以 
及 对 应 的 修饰 符 。 


Java 的 正则 流派 


Java © s Regex Flavor 


java.util.regex 使 用 传统 型 NFA， 所 以 第 4、5、6 章 介绍 的 丰富 特性 都 适用 于 它 。 下 页 
的 表 8-2 总 结 了 它 的 元 字符 。 此 流派 的 某 些 方面 已 经 发 生 了 变化 ,原因 是 各 种 匹配 模式 ， 匹 
配 模式 的 启用 通过 各 种 method 和 factory 来 设 定 标志 位 ， 或 者 内 婴 在 表达 式 中 的 
'(2mods-mods) | 和 '(?mods-mods:…) ,修饰 符 。 这 些 模式 在 第 368 页 的 表 8-3 中 有 列 出 。 


下 面 是 对 表 8-2 的 说 明 : 
© 只 有 在 字符 组 内 部 ，\b 才 代 表 退 格 字符 。 在 其 他 场合 ，\b 都 代表 单词 分 界 符 。 


表 中 给 出 的 是 “ 纯 (raw)” 反 和 斜 线 ， 但 是 用 作 Java 正则 表达 式 的 字符 串 时 必须 使 用 双 
反 斜 线 。 例 如 ， 表 中 的 、\n 在 Java 的 字符 串 中 必须 写作 “\\na"。 请 参考 “作为 正则 表 
达 式 的 字符 串 ”( 字 101)。 


\x## 容 许 且 只 容许 出 现 两 位 十 六 进 制 数字 ， 所 以 xFCber 匹配 ‘über’, 
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X 8-2: java.util.regex x 的 正则 流派 





F115 (c) mn + ru \e \f \n \r \t " \Ooctal vaf PRE pert 


字符 组 及 相关 结构 

#118 (c) 字符 组 : […] [^…] (可 包含 集合 运算 符 了 125) 
F119 几乎 任何 字符 : 点 号 (根据 模式 的 不 同 ， 有 各 种 含义 ) 
#120 (c) 字符 组 缩 略 表示 法 ?2: \w \d \s \W \D \S 
7121 (c) Unicode 属性 和 区 块 ": \p{Prop} \P{Prop} 

锚 点 及 其 他 办 长 度 断 言 

2370 行 / 字 待 事 起 始 位 置 : ^ \A 

#370 行 /字符 事 结束 位 置 : $ \z \ 人 2 

#370 当前 匹配 的 起 始 位 置 : \G 

#133 单词 分 界 符 ”: \b \B 

#133 环视 结构 93: (?=…) (?!…) (?<=…) (Rete) 
注释 及 模式 修饰 符 

135 模式 修饰 待 : (?mods-mods) 容许 出 现 的 模式 : xasmi u 
F135 模式 修饰 范围 : (?mods-mods:…) 

2368 (c) 注释 : 从 # 到 行 末 (只 在 启用 时 有 效 ) © 

7113 (c) 文字 文本 模式 ”: \Q*…\E 

分 组 及 捕获 

#137 捕获 型 括号 : (…) \L \2… 

137 仅 分 组 的 括号 : (? 

7139 固化 分 组 : (?>…) 

7139 多 选 结构 : | 

F141 匹配 优先 量词 : * + ? {n} {n,} {x,y} 

F141 忽略 优先 量词 : *? +? ?? {n}? {n,}? {x,y}? 
#142 占有 优先 量词 : *+ ++ ?+ {mn} + {n,}+ (x, y}+ 





(c) 一 一 可 用 于 字符 组 内 部 O- OLA 


\u#### 容 许 且 只 容许 四 位 十 六 进 制 数字 ， 例 如 ，\u00oFcber 匹配 “Hber " ，\u20RC， 
匹配 ““。 


\ooctal 要 求 开头 为 0， 后 接 1 到 3 位 十 进 制 数字 。 


\cchar 是 区 分 大 小 写 的 ,直接 对 后 面 字 符 的 十 进 制 编码 进行 异 或 (xoring) 操作 。 与 我 
见 过 的 任何 流派 都 不 一 样 ， 在 这 里 \ca 和 \ca 是 不 同 的 。\ca 等 于 传统 意义 上 的 \x01， 
\ca 则 等 价 于 \x21， 匹 配 “!"。 


© \w、\a 和 \e (以 及 对 应 的 大 写 缩 略 法 ) 只 适用 于 ASCI 字符 ， 而 不 包括 其 他 的 字母 、 
数字 或 者 Unicode 空白 字符 。 也 就 是 说 ，\a 等 价 于 [0-9] ，\w 等 价 于 [0-9a-zA-2Z]， 
\s 等 价 于 ["\t\n\f\r\x0B] (\x0B 是 ASCI 中 基本 不 用 的 VT 字符 )。 


www.TopSage.com 


368 


第 8 章 : Java 





© 


要 覆盖 完整 的 Unicode 字符 , 可 以 使 用 Unicode 属性 (7121): 用 \p{L} 表 示 \w, \p{Na) 
表示 \da， 用 \p{2} 表 示 \s。( 把 小 写 的 p 替换 为 大 写 的 Pp， 就 可 以 对 应 \Ww、\D 和 \S)。 


\p{…} 和 \P{…} 支 持 Unicode 属性 和 区 块 ， 以 及 某 些 额外 的 “Java 属性 ”。 它 不 支持 
Unicode 字母 表 。 详 细 信 息 在 下 一 页 。 


对 单词 分 界 符 元 字符 \b 和 \B 来 说 ,“ 单 词 字 符 ” 的 规定 不 同 于 \w 和 \w。 单 词 分 界 符 能 
够 识别 Unicode 字符 ， 而 \w 和 \w 只 能 识别 ASCH 字符 。 


顺序 环视 结构 中 可 以 使 用 任意 正则 表达 式 , 但 是 逆序 环视 中 的 子 表达 式 只 能 匹配 长 度 有 
限 的 文本 。 也 就 是 说 ，?; 可 以 出 现在 逆序 环视 中 , 但 *, 和 "+, 则 不 行 。 请 参考 第 3 章 133 
页 开始 的 内 容 。 


只 有 在 使 用 /x 修饰 符 ， 或 者 使 用 Pattern.COMMENTS 选项 (7368) (请 不 要 忘记 在 多 
行文 本 字符 串 中 添加 换行 符 , 如 第 401 页 的 例子 ) 时 ,#… 回 才 算 注释 。 没有 转 义 的 ASCII 
字 空 白字 符 会 被 忽略 。 注 意 : 这 一 点 与 大 多 数 支持 此 模式 的 正则 引擎 不 同 ， 在 Java 中 
字符 组 内 部 的 注释 和 空白 字符 也 会 被 忽略 。 


\Q…\E 一 直 是 被 支持 的 ， 但 在 Java 1.6 之 前 ， 字 符 组 内 部 的 此 种 结构 是 不 可 靠 的 。 


R 8-3: java.util.regex 中 Match 和 Regex 的 方法 


Patern.UNIX_LINES 
Pattern. DOTALL 
Pattern.MULTILINE 


Pattern.COMMENTS 
Pattern.CASE_INSENSITIVE 


Pattern.UNICODE_CASE 


Pattern.CANNON_EO 


os ARA 
rae LE Fhe wo? (370) 
s č | 点 号 能 匹配 任何 字符 (7111) 

m | HAM Fos HMR (737) 
ae 宽松 排列 和 注释 模式 (在 字符 组 内 部 也 有 效 ) 
(72) 

i | 对 ASCIL 字符 进行 不 区 分 大 小 写 的 匹配 

ju | 对 Unicode 字符 进行 不 区 分 大 小 写 的 匹配 
Unicode“ 按 规则 等 价 (canonical equivalence)” 


匹配 模式 (不 同 编 码 中 的 同样 字符 视 为 相等 
108) 


Pattern.LITERAL |__| 将 regex 参数 作为 文字 文本 ， 而 非 正则 表达 式 
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Java 对 \p{..} 和 \P{...} 的 支持 


Java Support for \p{. J and P} 


\p{--}) A'\P (+) AREF Unicode 的 属性 和 区 块 ， 也 支持 特殊 的 “Java” 字 符 属 性 。 这 
种 支持 针对 Unicode Version 4.0.0 (Java 1.4.2 只 支持 Unicode Version 3.0.0) , 


Unicode 属性 


Unicode 属性 是 通过 \p{Lu} 之 类 的 缩写 名 字 来 引用 的 (参加 122 页 的 列表 )。 单 字母 属性 名 
可 以 省 略 括号 ，\pL 等 价 于 \p{L}。 而 \p{Lowercase_Letter) 之 类 的 长 名 称 是 不 支持 的 。 


Java 1.5 及 之 前 的 版 本 是 不 支持 Pi 和 Pt 属性 的 ， 因 此 ， 具 有 这 种 属性 的 字符 不 能 用 \p{P) 
来 匹配 (Java 1.6 支持 ) 。 


“未 赋值 的 代码 点 ”属性 \p{cn} 匹 配 的 字符 ， 不 能 由 “其 他 字符 ”属性 \p{c} 来 匹配 。 
Java 不 支持 组 合 属性 \p{L&}。 


Java 支持 伪 属 性 \p{all}, EMF! (2s: .)1, 但 不 支持 \p{assigned} 和 \p{unassigned)} 
伪 属 性 ， 不 过 我 们 可 以 用 \P{cn} 和 \p{cn} 来 代 震 。 


Unicode 区 块 


Unicode block 的 支持 要 求 使 用 "In 前缀。 请 翻 到 第 402 页 查阅 具体 的 版 本 信息 , 了解 \p{…)， 
和 、P{(…)) 中 能 够 出 现 的 区 块 名 称 。 


为 了 保持 向 后 兼容 性 ,Java 1.5 中 有 两 个 Unicode 区 块 在 Unicode Version 3.0 和 4.0 之 间 发 生 

了 变化 。 除 了 Unicode 4.0 提供 的 Combining Diacritical Marks for Symbols 和 Greek and 
Coptic 之 外 ， 还 可 以 使 用 本 不 属于 Unicode 4.0 的 名 称 Combining Marks for Symbols 和 
Greek, 


Java 1.4.2 有 个 涉及 Arabic Presentation Forms-B #1 Latin Extended-B 的 bug， 在 Java 1.5 
中 已 经 修正 。 


特殊 的 Java 字符 属性 


从 Java 1.5.0 开始 ，\p{…} 和 \P{…} 结 构 能 够 支持 java.lang.character PRAH 
(non-deprecated) 的 isSomething 方法 。 为 了 在 正则 表达 式 中 使 用 此 功能 ， 请 把 方法 名 开头 
的 “is” 替 换 成 “java’ ,然后 使 用 "\p{…} 入 P{…} J。 例 如， 由 java.lang.Characer. 
isJavaIdentifierStart 匹配 的 字符 也 能 用 正则 表达 式 '\p{javaJavaldentifierstart) 
来 匹配 (请 参考 java.lang.character 类 的 文档 )。 


L 
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Unicode 行 终结 符 


Unicode Line Terminators 


在 Unicode 之 前 的 传统 正则 流派 中 ， 点 号 、^、$ 和 \z 会 对 换行 符 (ASCII 中 的 LF 字符) 进 
行 特殊 处 理 。 在 Java 中 ， 大 多 数 Unicode 行 终结 符 (109) 也 会 这 样 特殊 处 理 。 


正常 情况 下 ，Java 会 把 下 面 的 这 些 字符 当 作 行 终结 符 : 





U+000R dæ ASCII [RHR Ca newline” E 

U+000D CR Ar | ASCH 回 车 

U+000D U+000A ASCII 回 车 /换行 序列 

U+0085 Unicode NEXT LINE (Unicode 换行 符 ) 
U+2028 Unicode LINE SEPERATOR (Unicode 行 分 隔 符 ) 





U+2029 PS | Unicode PARAGRAPH SEPARATOR (Unicode 段 分 隔 符 ) 


根据 匹配 模式 (7368) 的 不 同 ， 点 号 、^、$ 和 \z 会 对 这 些 符号 进行 特殊 处 理 ; 


= a — R = ER gx Wm th Salt 
tee rb 


JETE] rrr TIEN 
字符 事 中 的 行 终结 符 也 可 以 由 ^ 和 $ 匹 配 
| . | 行 终结 特 不 再 另行 处 理 ， 点 号 可 以 匹配 所 有 字符 


作为 行 终结 标志 的 双 字 符 CR/LF 值得 一 提 。 默 认 情况 (没有 使 用 UNIX_LINES 时 ) 是 识别 
完整 的 行 终结 符 ， 匹 配 文本 行 边界 的 元 字符 会 把 CRLF 视 为 不 可 分 隔 的 单位 ， 一 次 性 匹配 
这 两 个 字符 。 


举例 来 说 ，$ 和 \z 通常 会 匹配 行 终结 符 之 前 的 位 置 。LF 是 行 终结 符 ， 但 只 有 在 它 不 属于 
CR/LF (也 就 是 说 ，LF 之 前 没有 CR) 的 情况 下 ，$ 和 \z 才 能 匹配 字符 串 末 尾 的 LF 之 前 的 
位 置 。 


MUTILINE 模式 中 的 $ 和 人 ^ 也 是 如 此 ， 在 这 种 模式 下 ， 只 有 在 CR 之 后 没有 LF 的 情况 下 ,“ 才 
能 匹配 CR 之 后 的 位 置 ， 只 有 在 LF 之 前 不 是 CR 的 情况 下 ，$ 才 能 匹配 LF 之 前 的 位 置 。 


必须 说 清楚 的 是 ，DOTALL 对 CR/LF 的 处 理 没有 影响 (DOTALL 只 影响 点 号 ， 而 点 号 总 是 逐 
个 处 理 字符 的 )，UNIX_LINES 根本 不 存在 此 类 问题 ( 它 只 识别 CR， 所 有 其 他 行 终结 符 都 不 
需要 特殊 处 理 )。 






a 
UNIX_LINE 
MULTILINE 
DOTALL 
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使 用 java.util regex 


Using java.util. regex 


通过 java.util.regex 使 用 正则 表达 式 非 常 简单 ， 功 能 由 两 个 类 ， 一 个 接口 和 一 个 
unchecked exception 组 成 。 


java.util.regex. Pattern 
java.util.regex.Matcher 
java.util.regex.MatchResult 


java.util.regex.PatternSyntaxException 


就 我 个 人 来 说 ， 更 喜欢 简称 前 两 个 为 “patterm ”和 “matcher”， 许 多 时 候 我 们 只 会 用 到 这 两 
个 类 。 简 单 地 说 ，Pattern 对 象 就 是 编译 好 的 正则 表达 式 ， 可 以 应 用 于 任意 多 个 字符 圳 ， 
Matcher 对 象 则 对 应 单独 的 实例 ， 表 示 将 正则 表达 式 应 用 到 某 个 具体 的 目标 字符 串 上 。 


Java 1.5 新 提供 的 atchResult， 它 封装 了 成 功 匹配 的 数据 。 匹 配 数据 可 以 在 下 一 次 匹配 尝 
试 之 前 从 Matcher 本 身 获 得 ， 也 可 以 提取 出 来 作为 MatchResult 保存 。 


如 果 匹 配 尝试 所 使 用 的 正则 表达 式 格式 不 正确 (例如 ，[oops] 的 语法 就 不 正确 ,就 会 抛 出 
PatternSyntaxException 异常 。 这 是 一 个 unchecked exception ， 继 承 自 java.lang. 
IllegalAgumentException, 


下 面 是 一 个 完整 的 、 详 细 的 程序 ， 示 范 了 简单 的 匹配 : 


public class SimpleReagenTesr | 
pubiic static void tmain(Stringf} args) 
{ 
String myText = "this is my 1st test string"; 
String myRegex = "\\d+\\w+"; // 表示 \G+NW+ 
java.util.regex.Pattern p = java.util.regex. Pattern.compile(myRegex) ; 
java.util.regex.Matcher m = p.matcher(myText); 


if (m.find()) { 
String matchedText = m.group(); 
int matchedFrom = m.start(); 
int matchedTo = m.end(); 
System.out.println("matched [" + matchedText + "] " + 
"from ”+ matchedFrom + 
"to " + matchedTo + ."."); 
} else { 
System.out.printin(*didn't match"); 
} 
} 
} 


结果 是 “matchea [1st] from 12 to 15."。 在 本 章 的 所 有 例子 中 ， 我 都 用 斜体 表示 变量 
名 。 如 果 这 样 声明 ， 可 以 省 略 粗 体 部 分 : 


import java.util.regex.*; 


它 应 该 放 在 程序 的 头 部 ， 和 第 3 章 的 例子 (795) 一 样 。 


L 
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这 是 标准 的 做 法 ， 而 且 程序 更 容易 管理 。 本 章 的 其 他 程序 省 略 了 import 语句 。 


java.util.regex 使 用 的 对 象 模型 与 其 他 大 多 数 语言 不 同 。 请 注意 , 前 面 例子 中 的 Matcher 
对 象 m， 是 通过 把 pattern 对 象 和 目标 字符 串联 系 起 来 得 到 的 ， 它 用 来 进行 实际 的 匹配 党 
ik (使 用 find 方法 ) ， 以 及 查询 结果 ((EHĦ group, start Ml end HH), 


这 办 法 初 看 起 来 可 能 有 点 古怪 ， 但 你 很 快 就 能 适应 了 。 


The Pattern.compile() Factory 


The Pattern. compile?) Factory 


正则 表达 式 的 Pattern 对 象 是 通过 pattern.compile 生成 的 ,第 一 个 参数 是 代表 正则 表达 
式 的 字符 串 (7101), 368 页 表格 8-3 中 的 选项 可 以 作为 第 二 个 参数 。 下 面 的 代码 从 字符 捉 
myRegex 生成 一 个 pattern， 进 行 不 区 分 大 小 写 的 匹配 : 


Pattern pat = Pattern.compile(myRegex, 
Pattern.CASE_INSENSITIVE | Pattern.UNICODE_CASE) ; 


预定 义 的 pattern 常量 用 来 指定 编译 选项 (例如 Pattern.CASE_INSENSITIVE)， 这 可 能 有 
点 笨拙 QE 2), 所 以 我 会 使 用 正则 表达 式 内 部 的 模式 修饰 符 (7110). 包括 378 THY Ox), 
399 页 的 (?s) 和 多 个 "(?i)。 


不 过 ， 预 定义 常量 固然 复杂 ， 但 这 种 “条 办 法 (unwieldy) ”能够 降低 新 手 阅 读 代 码 的 难度 。 

如 果 没 有 页 面 宽 度 限 制 ， 我 们 可 以 这 样 写 第 384 页 的 Pattern.compile 的 第 二 个 参数 ; 
Pattern.UNIX_LINES | Pattern.CASE_INSENSITIVE 

而 不 是 在 正则 表达 式 开 头 使 用 不 那么 清楚 的 Oid) 

从 名 字 可 以 看 出 ， 这 一 步 把 正则 表达 式 解 析 并 编译 为 内 部 形式 。 第 6 章 对 此 有 详细 讲解 

(241)， 简 单 地 说 ， 在 字符 串 内 应 用 表达 式 的 整个 过 程 中 ， 编 译 pattern 通常 是 最 耗 时 间 


的 。 所 以 要 把 编译 独立 出 来 ， 作 为 第 一 步 一 一 这 样 就 可 以 先期 将 正则 表达 式 编 译 好 ， 重 复 
使 用 。 


当然 ， 如 果 正 则 表达 式 编译 之 后 只 需要 使 用 一 次 ， 编 译 时 机 就 不 是 个 问题 ， 但 如 果 需 要 多 
次 应 用 (例如 应 用 到 读 入 文件 的 每 一 行 )， 预 编译 Pattern 对 象 就 很 有 价值 。 


注 2: 尤其 是 在 页 面 宽 度 固 定 的 书 精 中 安排 代码 的 时 候 一 一 我 对 此 深 有 体会 。 
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调用 Patern.compile 可 能 抛 出 两 种 类 型 的 异常 :如 果 正则 表达 式 不 合 规则 PtH Pattern- 


syntaxException， 选 项 不 合 规则 ， 抛 出 11legalArqumentException, 


Pattern 的 matcher 方法 


Pattern’s matcher method 


Pi (7394) 我 们 会 看 到 ，Pattern 提供 了 某 些 简便 的 方法 ， 但 是 大 多 数 情况 下 ， 我 们 
只 需要 -个 方法 完成 所 有 工作 : matcher。 它 接受 一 个 参数 : 需要 检索 的 字符 串 ( 注 3)。 
此 时 并 没有 确切 应 用 这 个 正则 表达 式 ， 而 只 是 为 将 pattern 应 用 到 特定 的 字符 串 做 准备 。 
matcher 方法 返回 一 个 Matcher 对 象 。 


Matcher 对 象 


The Matcher Object 


把 正则 表达 式 和 目标 字符 串联 系 起 来 , 生成 Matcher 对 象 之 后 , 就 可 以 以 多 种 方式 将 其 应 用 
到 目标 字符 串 中 ,并 查询 应 用 的 结果 .例如 ,对 于 给 定 的 Matcher 对 象 m, 我 们 可 以 用 m. find() 
来 把 m 的 表达 式 应 用 到 目标 字符 串 中 , 返回 一 个 Boolean 值 , 表示 是 否 能 找到 匹配 。 如 果 能 
找到 ，m.group (返回 实际 匹配 的 字符 串 。 


在 讲解 Matcher 的 各 种 方法 之 前 , 不妨 先 了 解 了 解 它 保存 的 各 种 信息 。 为 了 方便 阅读 ， 下 面 
的 清单 都 提供 了 对 应 的 详细 讲解 部 分 的 页 码 。 第 一 张 清单 中 的 元 素 是 程序 员 能 够 设置 和 更 
改 的 ， 而 第 二 张 清单 中 的 元 素 是 只 读 的 。 


程序 员 能 够 设置 和 修改 的 是 ; 


。 pattern 对 象 ， 由 程序 员 在 创建 Matcher 时 指定 。 可 以 通过 usePattern() 方 法 更 改 
(=393)。 当 前 所 用 的 Pattern 可 以 用 pattern1() 方 法 获得 。 


*。 ”目标 字符 串 (或 其 他 charsequence 对 象 ) ， 由 程序 员 在 创建 Matcher 时 指定 。 可 以 通 
过 reset (text) 方法 更 改 (7392), 


。 目标 字符 串 的 “检索 范围 (region)”(=394)。 默 认 情况 下 ,检索 范 围 就 是 整个 目标 字 
符 串 ， 但 是 程序 员 可 以 通过 region 方法 ， 将 其 修改 为 目标 字符 圳 的 某 一 段 。 这 样 某 
He (而 不 是 全 部 ) 匹配 操作 就 只 能 在 某 个 区 域内 进行 。 


注 3: 事实 上 ，java.util.regex 是 非常 方便 的 ， 因 为 “string” 秦 数 可 以 是 任何 实现 Char- 
Sequence 接口 的 对 象 (String, StringBuffer, StringBuilder, WA CharBuffer 
都 可 以 ) 。 
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当前 检索 范围 的 起 始 和 结束 偏 移 值 可 以 通过 regionStart 和 regionEnd 方法 获得 
(7386), reset 方法 (7392) 会 把 检索 范围 重新 设置 为 整个 目标 字符 串 ， 任 何在 内 
部 调用 reset 方法 的 方法 也 是 一 样 。 


anchoring bounds 标志 位 。 如 果 检 索 范 围 不 等 于 整个 目标 字符 串 ， 程 序 员 可 以 设 定 ,， 是 
否 将 检索 范围 的 边界 设置 为 “文本 起 始 位 置 ” 和 “文本 结束 位 置 "， 这 会 影响 文本 行 边 


界 元 字符 (\A ^ $ \z \z)。 


默认 情况 下， 这 个 标志 位 为 trtue， 和 但 也 可 能 改变 ， 可 以 通过 useAnchoringBounds 
(9388) 和 hasAnchoringBounds 方法 来 修改 和 查询 。Reset 方法 不 会 修改 标志 位 。 


transparent bounds 标志 位 。 如 果 检 索 范 围 是 整个 目标 字符 串 中 的 一 段 文本 , 设置 为 tue 
容许 各 种 “考察 (looking)” 结 构 ( 顺 序 环视 、 逆 序 环视 ， 以 及 单词 分 界 符 ) 超越 检索 
范围 的 边界 ， 检 查 外 部 的 文本 。 


默认 情况 下 ， 这 个 标志 位 为 false， 但 也 可 能 改变 ， 可 以 通过 useTransparentBounds 
(7388) 和 hasTran- sparentBounds 方法 来 修改 和 查询 。Reset 方法 不 会 修改 标志 
位 。 


下 面 的 只 读数 据 保存 在 matcher 内 部 : 


当前 pattern 的 捕获 型 括号 的 数目 可 以 通过 groupCount (9377) 方法 查询 。 


目标 字符 串 中 的 match pointer 或 current location， 用 于 支持 “寻找 下 一 个 匹配 ”的 操 
作 (通过 fina 方 法 了 375)。 


目标 字符 串 中 的 append pointer, 在 查找 -替换 操作 中 (380), 复制 未 匹配 的 文本 部 分 
时 使 用 。 


表示 到 达 字 符 串 结尾 的 上 一 次 匹配 尝试 是 否 成 功 的 标志 位 。 可 以 通过 hiten 方法 
(7390) 获得 这 个 标志 位 的 值 。 


match result。 如 果 最 近 一 次 匹配 尝试 成 功 ,Java 会 将 各 种 数据 收集 起 来 ， 合 称 为 match 
result (7376), 包括 匹配 文本 的 范围 (通过 group () 方 法 ) ， 匹 配 文本 在 目标 字符 串 中 
的 起 始 和 结束 偏 移 值 (通过 start () 和 endo DA), 以 及 每 一 组 捕获 型 括号 对 应 的 信 
息 (通过 group (num)、 start (num) 和 end (num) 方 法 )。 


match-result 数据 封装 在 MatchResult 对 象 中 ， 通 过 toMatchResult 方法 获得 。 
MatchResult $A A GHJ group, start # end FH (7377). 


L 
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。 ”一 个 标志 位 ， 表 明 更 长 的 目标 文本 是 否 会 导致 匹配 失败 (匹配 成 功 之 后 才 可 用 )。 如 果 
边界 元 字符 影响 了 匹配 结果 的 生成 , 则 此 值 为 true。 可 以 通过 *equireEna 方法 查看 它 
的 值 (7390), 


上 面 列 出 的 内 容 很 多 ， 但 是 如 果 按 照 功 能 分 别 讲解 ， 便 很 容易 掌握 。 这 正 是 下 面 几 节 的 内 
容 。 把 这 一 章 作为 参考 手册 时 ， 本 章 开头 (7366) 的 列表 会 很 有 用 。 


应 用 正则 表达 式 


Applying the Regex 


把 matcher 的 正则 表达 式 应 用 到 目标 文本 时 ， 主 要 会 用 到 Matcher 的 这 些 方 法 : 


van £ind() 


此 方法 在 目标 字符 串 的 当前 检索 范围 (7384) 中 应 用 Matcher 的 正则 表达 式 ， 返 回 的 
Boolean 值 表示 是 否 能 找到 匹配 。 如 果 多 次 调用 , 则 每 次 都 在 上 次 的 匹配 位 置 之 后 尝试 
新 的 匹配 。 没 有 给 定 参数 的 fina 只 使 用 当前 的 检索 范围 (7384), 
下 面 是 简单 示例 : 
aT | ie fines = te a gic i Fxpressions"; 
Matcher m = Pattern.camspilelregex) .matcner (text); 
if (m.find()) 
System.out.println("match [" + m.group() + "]"); 


结果 是 : 
match [Mastring] 
如 果 这 样 写 : 


while (m.£ind()) 
System.out.println("match [" + m.group() + "]"); 


结果 就 是 : 


match [Mastering] 
match [Regular] 
match [Expressions] 


一 


ean £ind( int offset) 


如 果 指 定 了 整 型 参数 , 匹配 尝试 会 从 距离 目标 字符 串 开 头 offset 个 字符 的 位 置 开 始 。 如 
果 offset 为 负数 或 超出 了 目标 字符 串 的 长 度 , 会 抛 出 IndexoutofBoundsException # 
常 。 


L 
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这 种 形式 的 fina 不 会 受 当 前 检索 范围 的 影响 , 而 会 把 它 设 置 为 整个 “目标 字符 串 ”( 它 
会 在 内 部 调用 reset 方法 了 392)。 


第 400 页 的 补充 内 容 (作为 第 399 页 问题 的 答案 ) 给 出 了 恰当 的 例子 。 


:. matches () 


此 方法 返回 的 Boolean 值 表示 matcher 的 正则 表达 式 能 否 完 全 匹配 目标 字符 串 中 当前 检 
索 范围 的 那 段 文本 。 也 就 是 说 ， 如 果 匹 配 成 功 ， 匹 配 的 文本 必须 从 检索 范围 的 开头 开 
始 ， 到 检索 范围 的 结尾 结束 (默认 情况 就 是 整个 目标 字符 串 )。 如 果 检 索 范围 设置 为 默 
Un “RACAL”, matches 比 使 用 八 A(?:…)\zj 要 简单 。 


不 过 ,如 果 当 前 检索 范围 不 等 于 默认 情况 (384), 使 用 matches 可 以 在 不 受 anchoring- 
bounds 标志 位 (7388) 影响 的 情况 下 检查 整个 检索 范围 中 的 文本 。 


举例 来 说 ， 如 果 使 用 charBuffer 来 保存 程序 中 用 户 输入 的 文本 ， 而 检索 范围 设 定 为 
用 户 用 鼠标 选 定 的 部 分 。 如果 用 户 点 击 选 区 的 部 分 , 可 以 用 m.usePattern (urlPattern) . 
matches() 来 检查 选 定 部 分 是 否 为 URL (如 果 是 ， 则 进行 相应 的 处 理 )。 


String 对 象 也 支持 matches HH: 


"1234" .matches("\\d+"); // true 
"123!".matches("\\d+"); // false 


- lookingAt () 
此 方法 返回 的 Boolean 值 表 示 Matches 的 正则 表达 式 能 否 在 当前 目标 字符 串 的 当前 检 


索 范 围 中 找到 匹配 。 它 类 似 于 matches 方法 ,但 不 要 求 检 索 范 围 中 的 整 段 文本 都 能 匹 
配 。 


查询 匹配 结果 


Querying Match Results 


下 面 列 出 的 Matcher 方法 返回 了 成 功 匹 配 的 信息 。 如 果 正 则 表达 式 还 未 应 用 过 , 或 者 匹配 党 
试 不 成 功 ， 它 们 会 抛 出 IllegalstateException。 接 收 num 参数 (对 应 一 组 捕获 型 括号 ) 
的 方法 ， 如 果 给 定 的 num 非法， 会 抛 出 IndexoutOfBoundsException, 


if 
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请 注意 start 和 ena 方法 ， 它 们 返回 的 偏 移 值 不 受 检索 范围 的 影响 一 一 偏 移 值 从 整个 目标 
字符 串 的 开头 开始 计算 ， 而 不 是 检索 范围 的 开头 。 
后 面 还 给 出 了 一 个 例子 ， 讲 解 其 中 大 部 分 方法 的 使 用 。 

> group() 

返回 前 一 次 应 用 正则 表达 式 的 匹配 文本 。 

groupCount () 


返回 正则 表达 式 中 与 Matcher 关联 的 捕获 型 括号 的 数目 。 在 group, start 和 end X 
法 中 可 以 使 用 小 于 此 数目 的 数字 作为 numth 参数 ， 下 文 介绍 ( 注 4)。 


0 gropul( '.: num) 


返回 编号 为 num" 的 捕获 型 括号 匹配 的 内 容 , 如 果 对 应 的 捕获 型 括号 没有 参与 匹配 , 则 
返回 nul1。 如 果 num”* 为 0， 表示 返 回 整 个 匹配 的 内 容 ，group (0) 就 等 于 group()。 


start( <=! num) 


此 方法 返回 编号 为 num” 的 捕获 型 括号 所 匹配 文本 的 起 点 在 目标 字符 串 中 的 绝对 偏 移 
值 一 一 即 从 目标 字符 串 起 始 位 置 开 始 计算 的 偏 移 值 。 如 果 捕 获 型 括号 没有 参与 匹配 ， 
则 返回 -1。 


'” start!() 
此 方法 返回 整个 匹配 起 点 的 绝对 偏 移 值 ，start () 就 等 于 start (0)。 
end(i:.. num) 


此 方法 返回 编号 为 num” 的 捕获 型 括号 所 匹配 文本 的 终点 在 目标 字符 串 中 的 绝对 偏 移 
值 一 一 即 从 目标 字符 串 起 始 位 置 开始 计算 的 偏 移 值 。 如 果 捕 获 型 括号 没有 参与 匹配 ， 
则 返回 -1。 


ini emd() 
次 方法 返回 整个 匹配 的 终点 的 绝对 偏 移 值 ，ena () 就 等 于 end(0), 
it toMatchResuit () 


此 方法 从 Java 1.5.0 开始 提供 ， 返 回 的 MatchResult 对 象 封装 了 当前 匹配 的 信息 。 它 
和 Matcher 类 一 样 ， 也 包含 上 面 列 出 的 group, start, end 和 groupCount 方法 。 


如 果 前 一 次 匹配 不 成 功 ， 或 者 Matcher 还 没有 进行 匹配 操作 ， 调 用 toMatcheResult 


会 抛 出 IllegalStateException, 


注 4: groupCount 方法 任何 时 候 都 可 调用 ， 而 这 里 列 出 的 其 他 方法 必须 在 匹配 党 试 成功 之 后 才 
可 调用 。 
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示例 


下 面 的 例子 示范 了 若干 方法 的 使 用 。 给 定 一 个 URL 字符 串 ， 这 段 代 码 会 找 出 URL 的 协议 
名 (“http” 或 是 “https')、 主 机 名 ， 以 及 可 能 出 现 的 端口 号 : 


String url = “http://regex.info/blog"; 
String regex = “(?x) “(https?):// ([*/:]+) (?:(\\d+))?"; 
Matcher m = Pattern.compile(regex) .matcher (url); 


if (m.find()) 
{ 
System.out.print ( 
"Overall [" + m.group() + "J" + 


" (from " + mstart() + " to " + mend() + ")\n" + 
"Protocol [" + m.group(1) + "J" + 

" (from " + m.start(1) + " to" + m.end(1) + ")\n" + 
"Hostname [" + m.group(2) + "]" + 

* (from. * + m.start(2) + " to " + m.end(2) + ")\n" 


); 
// group(3) 可 能 未 参与 匹配 ， 此 处 应 小 心 对 待 


if (m.group(3) == null) 
System.out.println("No port; default of '80' is assumed"); 
else { 
System.out.print ("Port is [" + m.group(3) + "] " + 
"(from " + m.start(3) + " to * + m.end(3) + ")\n"); 
} 
} 
执行 的 结果 是 : 


Overall [http://regex.info] (from 0 to 17) 
Protocol [http] (from 0 to 4) 

Hostname [regex.info] (from 7 to 17) 

No port; default of '80' is assumed 


简单 查找 - 蔡 换 


Simple Search and Replace 


上 面 介绍 的 方法 足够 进行 查找 -替换 操作 了 ， 只 是 比较 麻烦 ， 但 是 Matcher 提供 了 简便 的 方 
法 。 


String replacehlLlL(Srrino replacement) 
返回 目标 字符 串 的 副本 ， 其 中 Matcher 能 够 匹配 的 文本 都 会 被 替换 为 replacement， 具 
体 处 理 过 程 在 380 页 。 


此 方法 不 受 检索 范围 的 影响 ( 它 会 在 内 部 调用 reset HE), 不 过 第 382 页 介绍 了 在 检 
索 范 围 中 进行 这 样 操作 的 方法 。 


String 类 也 提供 了 replaceall 的 方法 ， 所 以 ; 


string.replaceAll (regex, replacement) 
就 等 于 : 


Pattern.compile(regex) .matcher(string) .replaceAll (replacement) 


www.TopSage.com 


Matcher 33 379 





nq replaceFirst(3:: :29 replacement) 


此 方法 类 似 replacea1l1l, 但 它 只 对 第 一 次 匹配 (如 果 存 在 ) 进行 替换 。 
String 类 也 提供 了 replaceFirst 方法 。 


ring quoteReplacement (String text) 


此 static 方法 从 Java 1.5 开始 提供 , 返回 text 的 文字 用 作 replacement 的 参数 。 它 为 text 
副本 中 的 特殊 字符 添加 转 义 ， 避 免 了 下 一 页 讲解 的 正则 表达 式 特 殊 字符 处 理 (下 一 节 


也 给 出 了 Matcher .quoteReplacement 的 例子 ) 。 


简单 查找 - 普 换 的 例子 


下 面 的 程序 将 所 有 的 “Java 1.5” 改 为 “Java 5.0”， 用 市 场 化 的 名 称 取代 开发 名 称 : 


y EEx! "BeEore Java 1.5 was Java 1.4.2, Aftor Javā 
triny regex = "\ easel ` \s*l wv. 53bt: 
ii n Patti lle(regex) .matcher (Lexr); 
String — = m. n-replacealt (" Java 5. 0°); 
SYSULRL . Pr: Infresuits; 
结果 是 : 


Before Java 5.0 was Java 1.4.2. After Java 5.0 is Java 1.6 


如 果 pattern 和 matcher 不 需要 复 用 ， 可 以 使 用 链 式 编程 


Pattern.compile("\\bJava\\s*1\\.5\\b") .matcher (text) .replaceAll ("Java 5.0") 


(如 果 单 个 线程 中 需要 多 次 用 到 同一 pattern， 预 编译 pattern 对 象 可 以 提升 效率 372) 
对 正则 表达 式 稍 加 修改 ， 就 可 以 用 它 来 把 “Java 1.6” 改 为 “Java 6.0”( 当 然 也 需要 修改 
replacement FFE, HERL FH). 


Pattern.compile("\\bJava\\s*1\\. ([56])\\b") .matcher (text) .replaceAll ("Java $1.0") 


对 于 同样 的 输入 文本 ， 结 果 如 下 : 

Before Java 5.0 was Java 1.4.2. After Java 5.0 is Java 6.0 
如 果 只 需要 替换 第 一 次 出 现 的 文本 ， 可 以 使 用 replaceFirst， 而 不 是 replaceAll, BRT 
这 种 情况 , 还 有 一 种 情况 可 以 使 用 replaceFirst， 即 明确 知道 目标 字符 串 中 只 存在 一 个 匹 


配 时 ， 使 用 replaceFirst 可 以 提高 效率 (如果 了 解 正则 表达 式 或 是 目标 字符 串 ， 可 以 预 
知 这 一 点 )。 
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replacement 参数 


replaceAll 和 replaceFirst 方法 (以 及 下 一 节 的 appendReplacement 方法 ) 接收 的 
replacement 参数 在 插入 到 匹配 结果 之 前 ， 会 进行 特殊 处 理 : 


° SI, S2 ZAR BRAM A S ARE S DACAAR (S0 会 被 替换 为 所 有 匹 
配 的 文本 ) 。 


e 如 果 “s” 之 后 出 现 的 不 是 ASCI 的 数字 , 会 抛 出 IllegalArgumentException 异常 。 


“$” 之 后 的 数字 ， 只 会 应 用 “有 意义 ”的 部 分 。 如 果 只 有 3 组 捕获 型 括号 ， 则 “$25 
会 被 视 为 $2 然后 是 “5 ， 而 此 时 $6 会 抛 出 IndexOutOfBoundsException。 


。 PAAR SURMISE, 所 以 “、$” 表 示 美 元 符号 。 同 样 的 道理 ,“\、、” 表示 反 斜 
线 (在 Java 的 字符 串 中 , 表示 正则 表达 式 中 的 “、\、” 需 要 用 四 个 斜 线 “"\\、\、' )。 同 样 ， 
如 果 有 12 组 捕获 型 括号 , 而 我 们 希望 使 用 第 一 组 捕获 型 括号 匹配 的 文本 , 然后 是 “2”， 
应 该 是 这 样 “$1\2"。 


nA EAE replacement 字符 串 的 内 容 , 最 好 使 用 Mat cher .quoteReplacement 方法 ,确保 
不 会 出 错 。 如 果 用 户 的 正则 表达 式 是 uRegex, replacement 是 uRep1， 下 面 的 做 法 可 以 确保 
替换 的 安全 : 


Pattern.compi le (uRegex) .matcher (text) .replaceAl] (Matcher. quoteReplacement (uRep!) ) 


高 级 查找 - 蔡 换 


Advanced Search and Replace 


有 两 个 方法 可 以 直接 操作 Matcher 的 查找 -替换 过 程 。 它 们 配合 起 来 ， 把 结果 存 信 用户 指定 
的 stringBuffer 中 。 第 一 种 方法 每 次 匹配 之 后 都 会 调用 ， 在 result 中 存 入 replacement 字 
符 串 和 匹配 之 间 的 文本 。 第 二 种 方法 会 在 所 有 匹配 完成 之 后 调用 ， 将 目标 字符 串 中 最 后 的 
文本 拷贝 过 来 。 


“cr appendReplacement (Sr ouiiutfer result, Sring replacement) 


在 正则 表达 式 应 用 成 功 之 后 (通常 是 find) 马上 调用 此 方法 会 把 两 个 字符 串 添加 到 指 
AN result 中 : 第 一 个 是 原始 目标 字符 串 匹 配 之 前 的 文本 ， 然 后 是 经 过 上 面 讲解 的 特 
殊 处 理 的 replacement FHE, 


| 
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举例 来 说 ， 如 果 matcher m 与 正则 表达 式 \w+, 和“-->one+test<--” 相 联系 ，while 
循环 的 第 一 轮 情况 如 下 : 


while (m.find({)) 
m.appendReplacement (sb, "XXX") 


find 找到 下 画 线 标 注 的 部 分 “-->ene+test<-- 。 


然后 ， 第 一 次 appendReplacement 调用 会 在 StringBuffer result 中 加 入 匹配 之 前 的 
文本 “--> ， 跳 过 匹配 的 文本 ， 再 插入 replacement FIFE ‘xxx’, 


While 循环 的 第 二 轮 ，finG 匹配 “-->one+testr--"。 此 时 调用 appendreplacement 
会 给 sb 附加 上 匹配 之 前 的 文本 “+ ”， 然 后 仍然 是 字符 串 “xxx "。 


这 样 sb 的 值 就 是 '-->xxx+xxx' , m 在 原始 目标 字符 串 中 对 应 的 位 置 是 '-->one+test. 
<-- 。 现 在 该 使 用 appendTail 方法 了 ， 下 文 将 会 介绍 。 


appendTail(2 7: nguti result) 


找到 所 有 匹配 之 后 (或 者 是 ， 找 到 期 望 的 匹配 之 后 一 一 此 时 用 户 可 以 停 小 匹配 过 程 )， 
这 个 方法 将 目标 字符 串 中 剩 下 的 文本 附加 到 提供 的 StringBuffer 中 。 


在 上 例 中 ， 接 下 来 就 是 : 


m.appendTail' sb) 


将 “<--” 附 加 到 sb。 这 样 就 得 到 “-->xxxX+XXx<--”， 查 找 -替换 完成 。 


查找 -替换 示范 


下 面 实现 了 一 个 自己 的 replaceall 的 方法 (并非 必须 ， 只 是 作为 示范 )。 


public static String replaceAll(Matcher m, String replacement) 
{ 
m.reset(); // 保证 Matcher 不 受 之 前 的 影响 
StringBuffer result = new StringBuffer(); // 生成 用 于 替换 的 副本 
while (m,final()) 
m.appendReplacement (result, replacement); 
m.appendTail (result); 
return result.toString(); // 转换 为 Sring， 然 后 返回 
} 


ES Java 内 建 的 replaceall 方法 一 样 ， 它 不 受 检索 范围 (7384) 的 影响 ， 而 是 在 查找 - 
替换 之 前 重 置 检索 范围 。 


iti 
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为 了 弥补 这 个 缺憾 , 下面 的 replaceall 只 在 检索 范围 中 进行 , 修改 和 新 增 的 代码 会 标注 出 
来 : 


ihiie static String replaceAllRegioniMatcher m, String replacement) 


Integer start = m.regionStart(); 
Integer end = m.regionEnd(); 


m. reset (). es end); // EE matcher, 之 后 恢复 region 
StringBuffer result new StringRuffer(); 7 生成 用 于 替换 的 副本 


resuir.toftrinat);: 7 转换 为 SrinG、 然 后 近 回 


这 里 使 用 “方法 链 (译注 1)” 结 合 reset 和 region， 详 细 讲 解 请 参阅 第 389 页 。 


下 面 的 程序 更 加 完善 ， 它 将 metric 变量 中 的 摄氏 温度 转换 为 华氏 温度 : 


// 构建 一 个 matcher， 匹 配 "Metric" 变 量 中 后 面 跟 有 "C" 的 数值 

// 下 面 的 正则 表达 达 式 是 : '( \d+(?:\.\d* )? J)CVbl 

Matcher m = Pattern.compile("(\\d+(?:\\.\\d*)?)C\\b") .matcher (metric) ; 

StringBuffer result = new StringBuffer(); // 生 成 用 于 替换 的 副本 

while (m.find()}) 

{ 
float celsius = Float.parseFloat(m.group(1)); // 得 到 数值 ， 转 换 为 浮 点 数 
int fahrenheit = (int) (celsius * 9/5 + 32); // 转换 为 华氏 温度 
m.appendReplacement (result, fahrenheit + "F"); // 插入 

} 

m.appendTail (result); 

System.out.println(result.toString()); // 显示 结果 


如 果 metric 变量 包含 “from 36.3c to 40.1c.”, RE “from 97F to 104F.”, 


原 地 查找 - 蔡 换 


In-Place Search and Replace 


现在 还 只 出 现 过 对 string 对 象 使 用 java.util.regex 的 例子 ， 但 是 Matcher 其 实 适 用 于 
任何 实现 了 charSequence RAMA, 所 以 我 们 能 够 对 目标 文本 进行 实时 的 、 原 地 {in place) 
的 修改 。 


StringBuffer 和 StringBuilder 是 两 种 常用 的 实现 了 charseauence 接口 的 类 ， 前 者 保 
证 线程 安全 性 ， 但 效率 略 低 。 这 两 者 都 可 以 作为 string 来 使 用 , 但 它们 的 值 可 以 变化 。 本 
书 中 的 例子 使 用 了 stringBuilder， 但 如 果 在 多 线程 环境 中 ， 请 使 用 scringBuffer。 


译注 1: method chaining, +} “tX thi”, 
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这 个 简单 的 例子 在 StringBuilder 中 搜索 大 写 单词 ， 将 它们 替换 为 小 写 形 式 (i 5): 


StringBuilder text = new StringBuilder("It's SO very RUDE to shout!"); 
Matcher m = Pattern.compile("\\b[\\p{Lu}\\p{Lt}]+\\b") .matcher (text); 
while (m.find()) 

text.replace(m.start(), m.end(), m.group().toLowerCase()); 
System.out.println(text); 


结果 是 : 


It’s BO very rude to shout! 


其 中 匹配 了 两 次 ， 调 用 了 两 次 text .replace。 头 两 个 参数 指定 需要 替换 的 文本 范围 ( 跳 过 
表达 式 匹配 的 文本 )， 然 后 是 用 作 replacement 的 文本 (也 就 是 匹配 文本 的 小 写 形 式 ) 。 


因为 replacement 和 匹配 文本 长 度 相同 ， 原 地 的 查找 -替换 很 简单 。 如 果 不 需要 迭代 进行 查找 
-替换 ， 这 种 方法 非常 方便 。 


长 度 变化 的 替换 


如 果 replacement 的 长 度 不 同 于 要 赫 换 文本 的 长 度 ， 情 况 就 复杂 起 来 。 对 目标 字符 申 的 修改 
是 在 “背后 ”进行 的 ， 所 以 “匹配 指针 (match pointer)”( 在 目标 字符 串 中 进行 下 一 次 fina 
的 开始 位 置 ) 会 发 生 错 误 。 


要 解决 这 个 问题 , 我 们 可 以 自己 维护 匹配 指针 , 明确 告诉 find 下 一 次 尝试 应 该 从 何 处 开始 。 
下 面 的 例子 做 了 这 样 的 改进 ， 在 需要 插 人 的 小 写 文本 两 端 添加 了 <b>…</b>: 


StringBuilder text = new StringBuilder("It's SO very RUDE to shout!"); 
Matcher m = Pattern.compile("\\bI[\\p{Lu}\\p{Lt}]+\\b") .matcher (text); 
int matchPointer = 0;// 首先 从 字符 事 起 始 位 置 开始 
while (m.find(matchPointer)) { 
matchPointer = m.end(); / 记录 本 次 匹配 结束 的 位 置 
text.replace(m.start(), ~.end(), "<b>"+ m.group().toLowerCase() +"</b>); 
matchPointer += 7; // 算 上 添加 的 '<b>' 和 '</b>' 
} 
System.out.printin(text); 


结果 是 : 


It’s <b>so</b> very <b>rude</b> to shout! 


5: 代码 中 的 表达 式 是 \b[\p{Lu}\p{Lt}]+\bl。 在 第 3 章 (7123) 介绍 过 ，\p{Lu} 匹 配 
Unicode 中 的 所 有 大 写字 母 , \p{Lt} 匹 配 首 字母 形式 字符 。 对 应 ASCI 编码 的 正则 表达 式 
是 [\b[RA-Z]+N\bl。 
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Matcher 的 检索 范围 


The Matcher’ s Region 


从 Javal.5 开始 ，Matcher 支持 可 变化 的 检索 范围 ， 通 过 它 ， 我 们 可 以 把 匹配 尝试 限制 在 目 
标 字符 串 之 中 的 某 个 范围 。 通 常情 况 下 ，Matcher 的 检索 范围 包含 整个 目标 字符 串 ， 但 可 以 
通过 region 方法 实时 修改 。 


下 面 的 例子 检索 HTML 代码 字符 串 ， 报 告 不 包含 ALT 属性 的 image tag。 对 同一 段 文 本 
(HTML)， 它 使 用 了 两 个 Matcher: 一 个 寻找 image tag， 另 一 个 寻找 ALT 属性 。 


尽管 两 个 Matcher 应 用 到 同一 个 字符 串 ， 但 它们 的 关联 只 局 限于 ， 用 找到 的 image tag 来 限 
定 寻 找 ALT 属性 的 范围 。 在 调用 ALT-matcher 的 find 方法 之 前 ,我 们 用 刚刚 完成 的 image-tag 
的 匹配 来 设 定 ALT-matcher 的 检索 范围 。 


单 拿 出 image tag 的 body 之 后 ， 就 可 以 通过 查找 ALT 来 判断 当前 的 tag 内 是 否 包含 ALT 属 
tE: 


// 查找 image tag 的 matcher。 变 量 'html ' 包 含 需要 处 理 的 HTM1 代码 
Matcher mImg = Pattern.compile("(?id)<IMG\\s+({.*?)/?>").matcher (html); 


// 查找 ALT 属性 的 matcher (应 用 于 刚刚 找到 的 IMG tag 中 ) 
Matcher mAlt = Pattern.compile("(?ix)\\b ALT \\s* =").matcher (html); 


// 对 html 中 的 每 个 image tag 

while (mImg.find()) { 
// 把 查找 范围 局 限 在 刚刚 找到 的 tag 中 
mAlt.region(mImg.start(1), mImg.end(1) ); 


// 如 果 没 有 找到 ， 则 报错 ， 输 出 找到 的 整个 image tag 
if (! mAlt.find()) 
System.out.println("Missing ALT attribute in: " + mImg.group()); 
} 


或 许 在 一 处 指定 目标 字符 串 (创建 male Matcher 时 )， 另 一 处 指定 检索 范围 (调用 
mAlt.region 了 时) 的 做 法 有 些 怪 异 。 果 真如 此 的 话 ， 我 们 可 以 为 male 创建 虚构 的 目标 字符 
RA (一 个 空 字 符 串 )， 然后 每 次 都 调用 mAlt.reset (html) .region(…)。 调 用 reset 可 能 
会 降低 些 效率 ， 但 是 同时 设 定 目标 字符 串 和 检索 范围 的 逻辑 更 加 清晰 。 


无 论 采 取 哪 种 办 法 ， 都 必须 明白 ， 如 果 不 设 定 ALT Matcher 的 检索 范围 ， 对 它 调 用 find 就 
会 检索 整个 目标 字符 串 ， 返 回 无 关 的 “ALT=” 属 性 。 


下 面 继续 完善 这 个 程序 ， 返 回 找到 的 image tag 在 HTML 代码 中 的 行 数 。 我 们 首先 隔离 出 
image tag 之 前 的 HTML 代码 ， 然 后 计算 其 中 的 换行 符 数 。 
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标注 部 分 为 新 增 代码 : 


// 查找 image tag tj matcher, 变量 'html ' 包 含 需要 处 理 的 HTML 代码 
Matcher mImg = Pattern.compile("(?id)<IMG\\s+(.*?)/?>").matcher (html); 
// 查找 ALT 属性 的 matcher (应 用 于 刚刚 找到 的 IMG tag F) 
Matcher mAlt = Pattern.compile("(?ix)\\b ALT \\s* =") .matcher (html); 
// Rikt H Matcher 
Matcher mLine = Pattern.compile("\\n") .matcher(html1); 
// 对 HTML 中 的 每 个 img tag ... 
while (mImg.find()) 
{ 
// 把 查找 范围 局 限 在 刚刚 找到 的 上 ag 中 
mAlt.region(mImg.start(1), mImg.end(1) ); 
// 如 果 没 有 找到 ， 则 报错 ， 输 出 找到 的 整个 image tag 
if (! mAlt.find()) { 
// 计算 当前 image tag ZHHRTRHKE 
mLine.region(0, mImg.start()); 
int lineNum = 1; // £—ff"*FH1 
while (mLine.find()) 


lineNum++; // #8 H—A+R4 RLM 1 
System.out.printin("Missing ALT attribute on line " + lineNum); 


) 
} 


与 之 前 一 样 , 每 次 设 定 ALT Matcher 的 检索 范围 时 , 都 使 用 image matcher 的 start (1) 方法 
得 到 image tag body 在 HTML 中 的 起 始 位 置 。 相 反 ， 在 设 定 换行 符 匹配 的 检索 范围 终点 时 ， 
使 用 start () 方 法 来 判断 整个 image tag 的 开始 位 置 (也 就 是 换行 符 计算 的 终点 )。 


几 点 提醒 


记 住 , 某 些 检 索 相 关 的 方法 并 非 不 受 检 索 范 围 的 影响 , 而 是 它们 在 内 部 调用 了 reset 方法 ， 
把 检索 范围 设 定 为 默认 的 “全 部 文本 ”。 


。 ” 受 检索 范围 影响 的 查找 方法 : 


matches 
lookingAt 
find() (不 带 参 数 ) 


。 ”会 重 置 matcher 及 其 检索 范围 的 方法 : 


find(text) ( 带 一 个 参数 ) 
replaceAll 
replaceFirst 


reset (无 须 多 言 ) 


另外 请 记 住 ， 匹 配 结果 数据 中 的 偏 移 值 (也 就 是 start 和 end 方法 返回 的 数值 ) 是 不 受 检 
索 范 围 影响 的 ， 它 们 只 与 整个 目标 字符 串 的 开始 位 置 有 关 。 


id 
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设 定 及 查看 检索 范围 的 边界 
与 设 定 及 查看 检索 范围 边界 的 方法 有 3 个: 
Matcher region(int start, int end) 


将 matcher 的 检索 范围 设 定 在 整个 目标 字符 串 的 start 和 end 之 间 ， 数 值 均 从 目标 字符 
串 的 起 始 位 置 开 始 计算 。 它 同样 会 重 置 Matcher, 将 “匹配 指针 ”指向 检索 范围 的 开头 ， 
所 以 下 一 次 调用 find 从 此 处 开始 。 


如 果 没 有 重新 设 定 ， 或 是 调用 reset 方法 (无 论 是 显 式 调 用 还 是 在 其 他 方法 内 部 调用 
= 了 392) ， 检 索 范 围 都 不 会 变化 。 


返回 值 为 Matcher 对 象 本 身 ， 所 以 此 方法 可 用 于 方法 链 (7389). 
如 果 start 或 end 超 出 了 目标 字符 串 的 范围 ,或 者 start 比 end 要 大 ,会 抛 出 Indexoutof- 


BoundsException, 
t regionstart () 
返回 当前 检索 范围 的 起 始 位 置 在 目标 字符 串 中 的 偏 移 值 ， 默 认为 0。 
int regionEnd() 
返回 当前 检索 范围 的 结束 位 置 在 目标 字符 串 中 的 偏 移 值 ， 默 认为 目标 字符 串 的 长 度 。 


因为 region 方法 要 求 同 时 提供 start 和 end, 如 果 只 希望 设置 其 中 一 个 , 可 能 不 太 方便 操作 。 
表 8-4 给 出 了 方法 。 


表 8-4: 设 定 检索 范围 的 单个 边界 


rey — aw: ~ 
: T t TE ane 


明确 设 定 m.region(start, m.regionEnd()); 
不 修改 m.region(m.regionStart(), end); 
明确 设 定 m.reset().region(start, m.regionEnd()); 
不 修改 明确 设 定 m.region(0, end); 
超越 检索 范围 


如 果 将 检索 范围 设 定 为 整个 目标 字符 串 中 的 一 段 ， 正 则 引擎 会 忽略 范围 之 外 的 文本 。 也 就 
是 说 ， 检 索 范 围 的 起 始 位 置 可 以 用 “匹配 ， 而 它 可 能 并 不 是 目标 字符 串 的 起 始 位 置 。 


不 过 ， 某 些 情 况 下 也 可 以 检查 检索 范围 之 外 的 文本 。 启 用 transparent bounds 能 够 让 “考察 
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(looking) ”结构 检查 范围 之 外 的 文本 ， 如 果 禁 用 anchoring bounds， 则 检索 范围 的 边界 不 
会 被 视 为 输入 数据 的 起 始 /结束 位 置 (除非 实际 情况 如 此 )。 


修改 这 两 个 标志 位 的 理由 与 修改 默认 检索 范围 密切 相关 。 之 前 用 到 了 检索 范围 的 例子 都 不 
需要 设 定 这 两 个 标志 位 一 一 与 检索 范围 相关 的 查找 既 不 需要 销 点 也 不 需要 “考察 ”结构 。 


如 果 程 序 把 需要 用 户 编辑 的 文本 存放 在 charBuffer 中 ， 用 户 希 望 执行 查找 -替换 操作 ， 就 
应 当 把 操作 的 范围 限定 在 光标 之 后 的 文本 中 ， 所 以 应 当 把 检索 范围 的 起 始 位 置 设 定 为 当前 
光标 所 在 的 位 置 。 如 果 用 户 的 光标 指向 下 面 的 位 置 : 


Madagas car is much too large to see on foot, so you'll need a car. 


要 求 把 \bcar\bl 替换 为 “automobile" 。 设 定 了 检索 范围 之 后 (即将 其 设 定 为 光标 之 后 的 文 
本 ), 你 可 能 会 很 惊奇 地 发 现 第 一 次 匹配 就 是 在 检索 范围 的 开头 :“Madagascar'。 这 是 因为 
默认 情况 下 transparent bounds 标志 位 设 定 为 false， 因 此 "\b, 将 检索 范围 起 始 位 置 设 定 为 文 
本 的 起 始 位 置 ， 而 “看 不 到 ” 左 侧 还 有 字符 。 如 果 将 transparent bounds 设 定 为 true,"\b, 就 
ERR c ZADETA ‘s’, Aik \b: 不 能 匹配 。 





Transparent Bounds 
与 这 个 标志 位 相关 的 方法 有 两 个 : 
>- useTransparentBounds(bocican b) 
IŁ transparent bounds 的 值 。 默 认为 false。 
此 方法 返回 Matcher 本 身 ， 故 可 用 在 方法 链 中 。 
boolean hasTransparentBounds () 
如 果 transparent 生效 ， 则 返回 true, 


Matcher 的 transparent-bounds 默认 为 如 lse。 也 就 是 说 检索 范围 的 边界 在 顺序 环视 、 逆 序 环视 
和 单词 分 界 符 “ 考 察 ”时 是 不 透明 的 。 这 样 ， 正 则 引擎 不 会 感知 到 检索 边界 之 外 的 字符 〈 注 
6)。 


注 6: Java 1.5 Update 7 中 有 个 bag， 我 已 经 报告 给 Sun。 使 用 Pattern.MULTILINE 之 后 ， 如 果 
之 前 正好 有 一 个 行 终结 桂 ， 即 使 已 经 取消 了 anchoring bounds, ^) (如 果 修 改 了 检索 边界 ， 
它 可 以 看 作 革 种 查看 结构 ) 也 可 以 匹配 检索 范围 的 起 始 位 置 。 


if 
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也 就 是 说 尽管 检索 范围 的 起 始 位置 可 能 在 某 个 单词 内 部 ，\b 仍然 能 够 匹配 一 一 它 看 不 到 之 
前 的 字母 。 
下 面 的 例子 说 明了 transparent bounds 设置 为 false (BRIA) 的 情况 : 

String regex = "\\bcar\\b"; // "b car\b 

String text = “Madagascar is best seen by car or bike."; 

Matcher m = Pattern.compile( regex) .matcher (text); 

m.region(7, text.length()); 


m.find(); 
System.out.println("Matches starting at character " + m.start()); 


结果 是 : 也 就 是 说 尽管 检索 范围 的 起 始 位 置 可 能 在 某 个 单词 内 部 ,，\b, 仍然 能 够 匹配 一 一 它 
看 不 到 之 前 的 字母 。 


Matches starting at character 7 


单词 分 界 符 的 确 匹 配 了 检索 范围 的 起 始 位 置 ， 即 Madagas car， 尽 管 此 处 根本 不 是 单词 的 
边界 。 如 果 不 设 定 transparent bounds， 单 词 分 界 符 就 “受骗 (spoofed)” 了 。 


如 果 在 find 之 前 添加 这 条 语句 : 


m.useTransparentBounds (true); 


结果 就 是 : 


Matches starting at character 27 


因为 边界 现在 是 透明 的 ， 引 擎 可 以 感知 到 起 始 边界 之 前 有 个 字母 “s" ， 所 以 人 bi 在 此 处 无 
法 匹配 。 于 是 结果 就 成 了 “…by*caror*bike.”。 


同样 , transparent-bounds 只 有 在 检索 范围 不 等 于 “整个 目标 字符 申 ” 时 才 有 意义 。 即使 reset 
方法 也 不 会 重 置 它 。 


Anchoring bounds 


与 anchoring bounds 有 关 的 方法 有 : 
Matcher useAnchoringBounds (Boolean b) 

设置 matcher 的 anchoring-bounds 的 值 ， 默 认为 true。 

此 方法 会 返回 matcher 对 象 本 身 ， 故 可 用 于 方法 链 中 。 
boolean hasAnchoringBounds ( () 

如 果 启 用 了 anchoring bounds， 则 返回 true, AME false, 


默认 状态 下 ，anchoring bounds 为 trwe ， 也 就 是 说 行 锚 点 (^ \a s z \z) 能 匹配 检索 范围 
的 边界 ， 即 检索 范围 不 等 于 整个 目标 字符 串 。 将 它们 设置 为 false 表示 行销 点 只 能 匹配 检索 
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范围 内 ， 整 个 目标 字符 串 中 符合 规定 的 位 置 。 


禁用 anchoring bounds 的 理由 可 能 与 使 用 transparent bounds 一 样 ， 当 用 户 的 “光标 不 在 整 段 
文本 的 起 始 位 置 时 ”保证 语意 的 完备 。 


与 transparent-bounds 一 样 ，anchoring bounds 也 只 有 在 检索 范围 不 等 于 “整个 目标 字符 串 ” 
时 才 有 意义 。 即 使 reset 方法 也 不 会 重 置 它 。 


方法 链 


Method Chaining 


下 面 的 程序 初始 化 一 个 Matcher， 并 设 定 某 些 选项 : 


Pattern p = Pattern.compile(regex); // 编译 regex 

Matcher m = p.matcher(text); // # regex 5 text 建立 联系 ,创建 Matcher 
m.region(5, text.length()); // 将 检索 范围 设 定 为 从 第 5 个 字 桩 开始 
m.useAnchoringBounds (false); // “^ 之 类 不 能 匹配 检索 范围 的 起 始 位 置 
m.useTransparentBounds (true) ; // 考察 结构 能 够 超越 检索 范围 


在 前 面 的 例子 中 我 们 看 到 ， 如 果 创 建 Matcher 之 后 不 再 需要 regex， 可 以 把 前 面 两 步 合 并 起 
来 : 


Matcher m = Pattern.compile(regex) .matcher (text); 


R.region(5s, text.length(}}; ii 将 检索 范 园 设 定 为 从 第 5 个 字符 开始 
m. useAnchoringBounds (false); i ^ 之 类 不 能 匹配 检索 范围 的 起 始 位 置 
m,useTransparent Bounds (true) // RH HA ww EID 


不 过 ， 因 为 Matcher 的 两 个 方法 会 返回 Matcher 本 身 ， 可 以 把 它们 整合 成 一 行 (尽管 因为 排 
版 的 原因 必须 列 为 两 行 ) : 


Matcher m = Pattern.compile{regex) .matcher(text).region(5, text.length() ) 
. useAnchoringBounds (false) .useTransparent Bounds (true); 


功能 并 没有 增加 ， 但 用 起 来 更 加 简便 。 这 种 “方法 链 ” 格 式 紧 次 ， 一 行程 序 可 能 很 难 对 应 
到 单个 步骤 的 文档 ， 不 过 ， 好 的 文档 重 在 说 明 “ 为 什么 ”而 不 是 “干什么 ， 所 以 这 可 能 并 
不 是 个 问题 。 在 第 399 页 的 程序 中 ， 使 用 方法 链 可 以 保证 格式 紧凑 清晰 。 


构建 扫描 程序 


Methods for Building a Scanner 


Java 1.5 的 matcher 提供 了 两 个 新 方法 ，hitEnd 和 reauireEnda， 它 们 主要 用 来 构建 扫描 程 
FF (Scanner) 。 扫 描 程 序 将 字符 流 解析 为 记号 (token) 流 。 举 例 来 说 ， 编 译 器 的 扫 找 程序 


会 把 “var*<'34” 人 解析 为 三 个 记号 : INDENTIFIER*LESS_THAN*INTEGER。 


Hl 
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这 两 个 方法 帮助 扫描 程序 决定 ， 刚 刚 完成 的 匹配 尝试 的 结果 是 否 应 该 用 米 解释 
(interpretation) 当前 输入 。 一 般 来 说 ， 只 要 其 中 一 个 返回 true， 就 表示 在 做 出 决定 之 前 还 
应 该 输入 更 多 的 数据 。 例 如 ， 如 果 当 前 的 输入 数据 (比如 用 户 在 交互 式 调试 器 中 输入 的 命 
令 ) 是 单个 字符 “< ,最 好 还 是 看 看 下 一 个 字符 是 否 “= ， 才 能 决定 这 个 记号 是 LESS_THAN 


还 是 LESS_THAN_OR_EQUAL, 


在 大 多 数 应 用 正则 表达 式 的 项 目 中 ， 这 两 个 方法 可 能 派 不 上 用 场 ， 可 是 一 旦 需要 ， 它 们 就 
是 不 可 替代 的 。 在 这 些 不 常见 的 场合 ，Java 1.5 中 hitend 方法 存在 的 bug 就 很 让 人 恼火 。 
Ait, ARK Java 1.6 已 经 修正 了 这 个 错误 ，Java 1.5 中 的 解决 办 法 将 在 本 章 末 尾 介 绍 。 


构建 扫描 程序 已 经 远 远 偏 离 了 本 书 的 主旨 ， 所 以 我 只 会 介绍 些 具 体 方法 的 定义 ， 并 给 出 例 
F (如 果 你 确实 需要 扫描 程序 ， 应 该 去 看 看 java .util .scanner)。 


boolean hitEnd() 
(Java 1.5 中 这 个 方法 是 不 可 靠 的， 解决 办 法 参见 第 392 页 ) 。 


此 方法 表示 , 正则 引擎 在 上 一 次 匹配 尝试 中 , 是 否 检查 了 输入 数据 结束 之 后 的 数据 (而 
无 论 上 一 次 匹配 是 否 成 功 ) 。 其 中 包含 \bl 和 $ 之 类 的 边界 检查 。 


如 果 hitEnd 返回 true, 则 输入 更 多 数据 可 能 会 改变 匹配 结果 (匹配 成 功 变 为 江 配 失败 ， 
匹配 失败 变 为 匹配 成 功 , 或 者 匹配 文本 发 生变 化 )。 相 反 ， 如 果 返 回 false， 则 匹配 结果 
已 经 确定 ， 和 输入 更 多 的 数据 也 不 会 改变 匹配 结果 。 


常见 的 应 用 是 ， 如果 匹配 成 功 , 而 hicend 返回 tue， 则 必须 等 待 更 多 的 输入 数据 才能 
最 后 做 出 决定 。 如 果 匹 配 失败 ， 而 hitend 返回 false， 应 该 期 待 更 多 的 输入 数据 ， 而 
不 是 报告 语法 错误 。 


boolean requireEna() 


此 方法 只 有 在 匹配 成 功 之 后 才 有 意义 ， 它 表示 正则 引擎 的 匹配 成 功 与 否 是 否 受 输入 数 
据 结 尾 的 影响 。 也 就 是 说 ， 如果 requireEnd 返回 tue, 更 多 的 输入 数据 可 能 导致 匹配 
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尝试 失败 ， 如 果 返 回 false， 更 多 的 输入 数据 可 能 改变 匹配 的 细节 ， 但 不 会 导致 匹配 失 
败 。 


常见 的 应 用 是 ， 如 果 requireEnd 返回 tue, 在 最 后 做 出 决定 之 前 ， 必须 接受 更 多 的 输 
入 数据 。 


hitEnd 和 requireEnd 都 受到 检索 范围 的 影响 。 


使 用 hitEnd 和 requireEnd 的 例子 


K 8-5 给 出 了 在 lookingAt 搜索 之 后 使 用 hitEnd 和 requireEnad 的 例子 。 所 给 的 两 个 例子 
虽然 很 简单 ， 但 足够 解释 这 两 个 方法 。 


表 8-5: 在 lookingAt 搜索 之 后 使 用 hitEnd 和 requireEnd 的 例子 


. z P< A < 
PE A-a stu = A = is š zx 
uke o WE 










1234’ 
*1234*>*567' 
Bal 
*>*567' 


‘s= 






\d+\b| [><] =? 
\d+\b| [><] =? 
\d+\b| [><] =? 
\d+\b| [><] =? 
\d+\b]| [><] =? 
\d+\b| [><] =? 
\d+\b| [><] =? 
(set | setup) \b 























“>=°567 ' 
‘oops’ 





(set | setup) \b 









10 | (set | setup) \b ‘setu’ 

11 | (set|setup) \b ‘setup’ 
12 | (set|setup)\b | ‘set*x=3’ 
13 | (set | setup) \b ‘setup*x’ 






(set | setup) \b ‘self’ 






(set|setup) \b ‘oops’ 





K 8-5 中 上 面 7 行 的 正则 表达 式 寻 找 一 个 非 负 整 数 以 及 4 个 比较 运算 符 : 大 于 、 大 于 等 于 、 
小 于 、 小 于 等 于 。 下 面 8 行 的 正则 表达 式 更 简单 ， 寻 找 单 词 set 或 是 setup。 这 些 例子 很 
简单 ， 但 能 说 明 问 题 。 


举例 来 说 , 第 5 行 中 , 虽然 整个 目标 字符 串 都 能 匹配 ，hitEna 仍然 会 返回 false。 原 因 在 于 ， 
尽管 匹配 文本 包含 目标 字符 串 的 最 后 一 个 字符 ， 引 擎 也 不 需要 检查 之 后 的 字符 (无论 是 字 
符 还 是 分 界 符 )。 
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hitEnd 的 bug 及 解决 办 法 


Java 1.5 中 的 hitEna 方 法 存在 bug (Java 1.6 已 经 修正 ) ( 注 7), 在 某 些 特殊 情况 下 hicend 
会 得 到 不 可 靠 的 结果 : 在 不 区 分 大 小 写 的 匹配 模式 下 ， 如 果 正 则 表达 式 的 某 个 可 选 元 素 为 
单个 字符 (尤其 是 当 它 的 匹配 尝试 失败 时 ) ， 就 会 出 错 。 


例如 ， 在 不 区 分 大 小 写 的 情况 下 使 用 >=?! ( 它 作 为 大 的 正则 表达 式 的 一 部 分 ) 会 诱发 这 个 
错误 ， 因 为 “=” 是 可 选 的 单个 字符 。 在 不 区 分 大 小 写 的 情况 下 使 用 alanithe: (仍然 是 包 
含 在 大 的 正则 表达 式 中 ) 也 会 诱发 这 个 错误 ， 因 为 单个 字符 al 是 众多 多 选 分 支 之 一 ， 因 此 
是 可 选 的 。 


FT AL values?) fl \r?\n\r?\n), 


解决 办 法 解决 的 办 法 是 破坏 诱发 条 件 ， 或 者 禁用 不 区 分 大 小 写 的 匹配 (至 少 是 对 诱发 的 子 
表达 式 禁 用 ) ， 或 者 是 把 单个 字符 替换 为 其 他 元 素 ， 例 如 字符 组 。 


第 一 种 办 法 会 把 >=?, 替换 为 '(?-i:>=?),， 使 用 模式 修饰 范围 (110) 保证 不 区 分 大 小 写 
的 匹配 不 会 应 用 于 这 个 子 表达 式 (这 里 不 存在 大 小 写 的 区 别 ， 所 以 这 种 办 法 完全 没 问题 ) 。 


如 果 使 用 第 二 种 办 法 ， ‘alan|the; 就 变 成 了 '[aA] lanlthe,), 代表 了 使 用 Pattern.CASE_ 
INSENSITIVE 进行 不 区 分 大 小 写 匹 配 的 情况 。 


Matcher 的 其 他 方法 


Other Matcher Methods 


这 些 Matcher 方法 尚未 介绍 过 : 
Matener reset() 


这 个 方法 会 重新 初始 化 Matcher 的 大 多 数 信息 ， 弃 用 前 一 次 成 功 匹 配 的 所 有 信息 ， 将 
匹配 位 置 指向 文本 的 开头 ， 把 检索 范围 (7384) 恢复 为 默认 的 “全 部 文本 "。 只 有 
anchoring bounds 和 transparent bounds (9388) 不 会 变化 。 


Matcher 有 三 个 方法 会 在 内 部 调用 reset ， 因 此 也 会 重新 设 定 检索 范围 ; replacea1l1、 
replaceFirst, 以 及 只 使 用 一 个 参数 的 find, 


这 个 方法 返回 Matcher 本 身 ， 所 以 它 可 以 用 在 方法 链 中 (7389), 
注 7: 本 书写 作 过 程 中 ，Sun 告诉 我 在 “5.0u9”， 也 就 是 Java 5.0 Update 9 中 修正 了 此 bug (你 可 


能 还 记得 ，365 页 的 脚注 提 到 过 本 书 针 对 的 Java 1.5 update 7), A Java 1.6 beta 中 ， 这 个 
bug 也 ,不 存在 。 


Hi 
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teher reget(Charsequence text) 


这 个 方法 与 reset () 差不多 ， 但 还 会 把 目标 文本 改 为 新 的 String (或 者 任何 实现 
CharSequence 的 对 象 ) 


如 果 你 希望 对 多 个 文本 应 用 同样 的 正则 表达 式 ( 例 如， 对 所 读 入 的 文件 的 每 一 行 ), 使 
用 reset 方法 比 多 次 创建 新 的 Matcher 更 有 效率 。 


这 个 方法 返回 Matcher 本 身 ， 所 以 可 以 用 在 方法 链 中 (389)。 


orn pattern() 


Matcher 的 pattern 方法 返回 与 此 Matcher 关联 的 pattern 对 象 。 如 果 和 希望 观察 所 使 
用 的 正则 表达 式 ， 请 使 用 m.pattern() .pattern() ， 它 会 调用 pattern MR (AF 
相同 ， 但 对 象 不 同 ) 的 pattern 方法 (7394), 


Matcner usgePattern(Patiern p) 


从 Java 1.5 开始 添加 ， 这 个 方法 会 用 给 定 的 Pattern 对 象 替换 当前 与 Matcher 关联 的 
Pattern 对 象 。 这 个 方法 不 会 重 置 Matcher， 所 以 能 够 在 文本 的 “当前 位 置 ”开始 使 用 
不 同 的 pattern。 第 399 页 有 此 方法 实际 应 用 的 例子 和 讨论 。 


这 个 方法 返回 Matcher 本 身 ， 所 以 可 以 用 在 方法 链 中 (7389), 


String toString() 


从 Java 1.5 中 添加 ， 这 个 方法 返回 包含 Matcher 基本 信息 的 字符 申 ， 调 试 时 这 很 有 用 。 
字符 串 的 内 容 可 能 会 变化 ， 在 Java 1.6 beta FERH: 


Matcher m = Pattern.compile(*(\\w+)").matcher("*ABC 123"); 
System.out.println(m.toString()); 

m.find(); 

System.out.println(m.toString()); 


结果 是 : 


java.util.regex.Matcher[pattern=(\w+) region=0,7 lastmatch=] 
java.util.regex.Matcher [pattern=(\w+) region=0,7 lastmatch=ABC] 


Java 1.4.2 的 Matcher 类 只 有 继承 自 java.lang.Object Mf toString 方法 , 它 返回 没 
什么 信息 含量 的 字符 串 : “java.util.regex.Matcher@480457'。 


if 
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查询 Matcher 的 目标 字符 串 


Matcher 类 没有 提供 查询 当前 目标 字符 串 的 方法 ， 但 有 些 办 法 绕 过 了 这 种 限制 ， 
// 此 pattern 在 下 面 的 函数 中 使 用 ， 此 处 编译 并 保存 ， 是 为 了 提高 效率 


Static final Pattern pNeverFail = Pattern.compile("*"); 


1/ 返回 与 matcher 对 象 关联 的 旧 标 字符 囊 

public static String text (Matcher m) 

{ 
// 记 住 这 些 位 置 ， 以 备 之 后 恢复 
Integer regionStart = m.regionStart(); 
Integer regionEnd = m.regionEnd(); 
Pattern pattern = m.pattern(); 


//PARLET ROT HF 


String text = m.usePattern(pNeverFail).replaceFirst(""); 


// 恢 复 之 前 记录 的 位 置 


m,usePattern(pattern) .region(regionStart, regionEnd) ; 
// 返回 文本 


return text; 
} 


这 里 使 用 replaceFirst 方法 ， 以 及 虚构 的 pattern 和 replacement 字符 串 ， 来 取得 目标 字符 
串 的 未 经 修改 的 副本 。 其 中 它 重 置 了 Matcher， 但 也 恢复 了 之 前 的 检索 范围 。 它 不 是 特别 好 
的 解决 方案 (效率 也 不 是 很 高 ， 而 且 即 便 Matcher EER OTE NER ESE et 
String), 但 是 在 Sun 给 出 更 好 的 办 法 之 前 ， 它 还 凑合 


Pattern 的 其 他 方法 


Other Pattern Methods 


除了 主要 的 compile factories, Pattern 类 还 提供 了 一 些 辅助 方法 : 
split 
下 一 页 会 详细 讲解 两 种 形式 的 split 方法 。 
ring pattern() 
这 个 方法 返回 用 于 创建 本 pattern MEMARARSAA. 
Steing tostring() 
这 个 方法 从 Java 1.5 之 后 可 用 ， 等 价 于 pattern 方法 。 
© flags() 


这 个 方法 返回 pattern 创建 时 传递 给 compile factory 的 flag 参数 (作为 整数 )。 


idi 
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inu Quote (Suring text) 


从 Java 1.5 开始 提供 的 static 方法 ， 返 回 text 对 应 的 正则 文字 字符 串 ， 能 够 作为 
Pattern.compile 的 参数 。 例 如 ，Pattern.auotel"main()") 返 回 字符 串 ‘\Qmain 


O\E’, 作为 正则 表达 式 它 解释 为 人 omain() \E), 完全 能 够 匹配 原始 的 参数 maino’, 
TOOar matches (Strina regex, CharSequence text) 


这 个 static 方法 返回 的 Boolean 值 表示 正则 表达 式 能 否 匹 配 文 本 (与 matcher HEME 
数 一 样 ， 可 以 是 一 个 string 或 者 任何 实现 charSequence 的 对 象 了 373)。 HX, ES 
PF: 


Pattern.compile (regex) .matcher(text) .matches(); 


如 果 需 要 传递 编译 参数 ， 或 者 所 要 的 信息 不 只 是 简单 的 匹配 是 否 成 功 ， 则 应 该 使 用 之 
前 介绍 的 办 法 。 


如 果 这 个 方法 需要 多 次 调用 (例如 ,在 循环 中 , 或 者 其 他 经 常 调用 的 代码 中 )， 预先 把 
正则 表达 式 编译 为 一 个 Pattern 对 象 ， 然 后 每 次 应 用 的 效率 会 高 很 多 。 


Pattern 的 split 方法 ， 单 个 参数 


Pattern ' s split Method, with One Argument 


eplit(Charsequence text) 
pattern 的 这 个 方法 接收 文本 (一 个 CharSequence 对 象 ) ， 然 后 返回 一 个 数组 ， 包 含 由 


这 个 pattern 对 应 的 正则 表达 式 在 其 中 的 匹配 分 隔 的 文本 。scring 类 的 split 方法 也 
提供 了 同样 的 功能 。 


String[] result = Pattern.compile("\\.").split("209.204.146.22"); 
返回 4 个 字符 串 构 成 的 数组 (209°, "204` 、“146” 和 “22" ) ， 由 文本 中 的 三 个 仆 .分 隔 。 
这 个 简单 例子 只 用 单个 字符 分 隔 ， 但 其 实 我 们 可 以 使 用 任何 正则 表达 式 。 例 如 ， 你 可 以 用 
非 字 母 和 数字 的 字符 把 一 个 字符 串 粗 略 地 分 为 “单词 

String[] result = Pattern.compile(*\\W+") .split (Text); 
如 果 给 出 的 字符 串 是 “whatvs ug, poc”， 则 返回 4 个 字符 串 (‘what’, ‘s’, ‘up’, ‘Doc’), 
由 这 个 表达 式 的 3 次 匹配 (如 果 包 含 非 ASCH 文本 ， 你 可 能 需要 使 用 、\P{Lj+ ,或 
'[^p{L}\p{N}_]1 而 不 是 ^\w+ 7367) 分 隔 。 
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相 邻 匹配 之 间 的 空 元 素 


如 果 正 则 表达 式 能 够 在 文本 的 最 开头 匹配 ， 返 回 数组 的 第 一 个 元 素 应 该 是 空 字符 捉 (这 是 
一 个 合法 的 字符 串 ， 但 是 不 包括 任何 字符 )。 同 样 ， 如 果 正 则 表达 式 能 够 在 某 个 位 置 匹配 两 
次 以 上 ， 应 该 返回 空 字符 串 ， 因 为 邻近 的 匹配 “分 割 ” 了 和 零 长度 的 文本 。 例 如 : 


String[j result = Pattern.compile("\\s*,\\s*").split(", one, two, ,, 3"); 


按照 两 边 可 能 出 现 空白 字符 的 逗号 来 分 割 ， 返 回 一 个 5 个 元 素 的 数组 : BEAR, ‘one’, 
上 wo 、 两 个 空 字符 串 和 “3 。 


序列 末尾 出 现 的 所 有 空 字符 串 都 会 被 包 略 : 


String[] result = Pattern.compile(":").split(":xx:"); 


这 样 会 得 到 两 个 字符 串 : 一 个 空 字符 串 和 “xx '" 。 如 果 和 希望 保留 这 些 元 素 ， 请 使 用 下 面 介 绍 
的 双 参 数 版 本 的 split。 


Pattern 的 split 方法 ， 两 个 参数 


Pattern ` s split Method, with Two Arguments 
String!) eplit(CharSewience text, int limit) 


这 个 版 本 的 split 方法 能 够 控制 pattern 应 用 的 次 数 , 以 及 结尾 部 分 可 能 出 现 的 空 元 素 
的 处 理 策 略 。string 类 的 split 方法 也 可 以 获得 同样 效果 。 


limit 参数 等 于 0， 大 于 0， 还 是 小 于 0， 各 有 意义 。 


limit 小 于 0 
如 果 limit 小 于 0， 就 会 保留 数组 结尾 的 空 元 素 。 


String{] result = Pattern.compile(":").split(":xx:", -1); 


返回 包含 3 个 字符 串 的 数组 〈 一 个 空 字符 种， "xx" ， 然 后 是 另 一 个 空 字符 串 ) 。 


limit 等 于 0 
把 limit 设置 为 0， 等 于 不 设置 imir， 所 以 不 会 保留 结尾 的 空 元 素 。 


limit 大 于 0 


如 果 limit KFO, Wil split 返回 的 数组 最 多 包括 limit 个 元 素 。 也 就 是 说 ， 正 则 表达 式 至 多 
会 应 用 limit-1 次 。( 如 果 limit=3, WF 2 次 匹配 来 分 割 3 个 字符 串 ) 。 


itl 


www.TopSage.com 


拓展 示例 397 


进行 limit-] 次 匹配 之 后 ， 匹 配 停止 ， 目 标 字符 串 中 其 余 的 部 分 (在 最 后 一 次 匹配 之 后 的 文 
本 ) 会 作为 结果 数组 的 尾 元 素 。 


如 果 某 个 字符 串 如 下 : 
Friedi,Jeffrey,Eric Francis,America,Ohio,Rootstown 


并 且 希 望 得 到 头 三 个 部 分 ， 你 可 以 将 字符 串 分 割 为 4 个 部 分 ( 头 3 个 部 分 是 名 字 ， 然 后 是 
最 后 的 “其 他 ”字符 串 ) : 

String[] NameInfo = Pattern.compile(",").split(Text, 4); 

// NameInfto[0] 是 姓 

// NameInfto[11 是 名 


// NameInfo[2] 是 中 名 {这 里 中 名 包括 两 个 词 ) 
// NameInfo[3] 是 其 他 部 分 ， 因 为 这 里 没 用 ， 直 接 忽 略 


为 split 设置 limit 的 理由 在 于 ， 如 果 不 需 要 更 多 地 处 理 ， 它 可 以 用 来 停止 查找 其 他 的 字符 
串 、 创 建新 字符 串 ， 限 制 数组 的 长 度 ， 提 高 效率 。 提 供 limit 能 够 限制 工作 量 。 


拓展 示例 


Additional Examples 


为 Image Tag 添加 宽度 和 高 度 属性 


Adding Width and Height Attributes to linage Tags 


这 里 给 出 个 高 级 的 例子 ， 原 地 (in-place) 查找 替换 ， 修 改 HTML， 保 证 所 有 的 image tag 都 
包含 WIDTH 和 HEIGHT 属性 (HTML 必须 是 StringBuilder, StringBuffer, 或 者 其 他 
CharSequence), 


只 要 有 一 副 图 像 没有 规定 宽度 或 者 高 度 ， 就 可 能 降低 整个 页 面 的 装载 速度 ， 因 为 浏览 器 在 
显示 这 幅 图 像 之 前 必须 读 入 整个 文件 。 如 果 包 含 了 宽度 和 高 度 的 尺寸 ， 文 本 和 其 他 元 素 就 
可 以 立刻 正确 摆 放 ， 这 样 用 户 会 感觉 页 面 读 取 速度 更 快 ( 注 8)。 


如 果 找 到 image tag， 程 序 会 寻找 SRC、WIDTH 和 HEIGHT 属性 ， 如 果 存 在 ， 提 取 他 们 的 
值 。 如 果 WIDTH 和 HEIGHT 有 一 个 不 存在 ,就 先 取 回 图 像 ， 计 算 尺寸 ， 然 后 补充 上 属性 。 


如 果 WIDTH 和 HEIGHT 都 没有 ， 就 按照 图 像 的 真实 尺寸 来 设置 这 些 属性 。 如 果 存 在 一 个 ， 
就 只 需要 算出 另 一 个 属性 ， 它 的 值 是 按 比例 计算 出 来 的 〈 例 如, 如果 WIDTH 是 真实 尺寸 的 
一 半 ， 则 添加 的 HEIGHT 的 值 也 是 真实 高 度 的 一 半 ， 现代 的 浏览 器 就 是 这 样 处 理 的 )。 


注 8:“ 所 有 的 图 像 都 必须 有 size 属性"”， 这 是 Yahoo! 的 规定 ， 即 使 在 早期 也 是 如 此 。 RR, SK 
仍然 有 许多 流量 巨大 的 站 点 页 面 的 <img> tag 不 包含 尺寸 信息 。 
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和 第 383 页 的 代码 一 样 ， 这 个 程序 手动 维护 匹配 指针 。 它 还 使 用 了 检索 范围 (7384) MA 
法 链 (了 389)。 代 码 如 下 : 


// 匹配 独立 的 <img> tags 
Matcher mImg = Pattern.compile("(?id)<IMG\\s+(.*?)/?>").matcher (html); 
// 匹配 独立 的 tag PAS SRC, WIDTH 和 HEIGHT 属性 (所 用 的 表达 式 很 简单 ) 
Matcher mSrc = Pattern.compile("(?ix)\\bDSRC ={(\\S+)").matcher (html); 
Matcher mWidth = Pattern.compile{"(?ix)\\bWwIDTH=(\\S+)") .matcher (html); 
Matcher mHeight= Pattern.compile(” (?ix) \\bHEIGHT=(\\S+)").matcher (html); 
int imgMatchPointer = 0; // 第 一 次 搜索 从 字符 事 起 始 位 置 开始 
while (mImg.find(imgMatchPointer)) 
{ 
imgMatchPointer = mImg.end(); // 下 一 次 查找 从 这 里 开始 
// 在 刚刚 找到 的 tag 中 查找 各 字段 
Boolean hasSrc = mSrc.region( mImg.start(l), mImg.end(1) ).find(); 
Boolean hasHeight = mHeight.region( mImg.start(1), mImg.end(1) ).find(); 
Boolean hasWidth = mWidth.region( mImg.start(1), mImg.end(1) ).find(); 
// 如 果 提 供 了 SRC 属性 ， 但 是 没 提供 WIDTH Fe/H HEIGHT .. 
if ( hasSrc && (! hasWidth || ! hasHeight)) 
{ 
java.awt.image.BufferedImage i = // 获 取 图 像 
javax.imageio.ImageIO.read(new java.net.URL(mSrc.group(1l))); 
String size; // 存 放 未 提供 的 WIDTH 和 /或 HEIGHT 属性 
if (hasWidth) 
// 得 到 了 width， 根 据 比例 计算 height 
size = "height='" + (int) (Integer.parseInt (mWidth.group(1)) * 
i.getHeight() / i.getWidth()) + "' "; 
else if (hasHeight) 
// 得到 了 height， 根 据 比 例 计算 width 
Size = "width='" + (int) (Integer.parseInt (mHeight .group(1))}* 
i.getWidth() / i.getHeight()) + "' "; 
else // 两 个 属性 都 没 提供 ， 按 实际 情况 处 理 
size = “width='" + i.getWidth() + "' " + 
"height='* + i.getHeight() + "' "; 
html.insert(mImg.start(1), size); // 原 地 修改 HTML 
imgMatchPointer += size.length(); // 更 新 匹配 指针 


} 


尽管 这 例子 很 有 教育 意义 ， 但 还 是 有 少数 地 方 没 考虑 到 。 因 为 这 个 例子 的 重点 在 于 本 地 查 
找 和 替换 ， 尽 可 能 地 简化 了 其 他 方面 ， 对 需要 处 理 的 HTML 进行 了 理想 的 假设 。 例 如 ， 正 
则 表达 式 不 容许 属性 的 等 号 两 边 出 现 空 白 ， 属 性 中 不 会 出 现 引 号 (参考 第 202 页 的 Perl E 
则 表达 式 ， 可 以 得 到 有 实际 意义 的 ，Java 版 本 的 tag 属性 匹配 的 办 法 )。 这 个 程序 不 能 处 理 
相对 URL， 也 不 能 处 理 格式 错误 的 URL， 也 不 能 处 理 获取 图 像 的 代码 抛 出 的 任何 异常 。 


不 过 ， 这 个 例子 仍然 说 明了 几 个 重要 的 概念 。 
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对 于 每 个 Matcher， 使 用 多 个 Pattern 校 验 HTML 


Validating HTML with Multiple Patterns Per Matcher 


我 们 也 可 以 用 Java 来 写 校 验 简单 HTML 的 程序 (了 132)。 这 段 代码 通 过 usePattern HH 
实时 更 换 Matcher 的 pattem, 这样 能 够 处 理 多 个 以 "Gj 开头 的 pattern, 进行 对 应 的 操作 。 请 
参考 第 132 页 的 内 容 了 解 此 方法 的 更 多 细节 。 


Pattern pAtEnd 
Pattern pWord 
Pattern pNonHtml 
Pattern pImgTag 
Pattern pLink 
Pattern pLinkx 
Pattern pEntity 


Pattern.compile("\\G\\z"); 
Pattern.compile("\\G\\w+"); 
Pattern.compile("\\G[*\\w<>&]+"); 
Pattern.compile("\\G(?i)<img\\s+([*>]+)>"); 
Pattern.compile("\\G(?i)<A\\s+([*>]+)>"); 
Pattern.compile("\\G(?i)</A>"); 
Pattern.compile("\\G& (#\\d+; \\w+);"); 


nom on Ww nm ow ow 


Boolean needClose = false; 
Matcher m = pAtEnd.matcher(html); // #4 Pattern 对 象 都 能 生成 Matcher MR 
while (! m.usePattern(pAtEnd).find()) 
{ 

if (m.usePattern(pWord).find()) { 

. m.group () 包 含 一 个 单词 或 数值 ， 可 以 进行 对 应 的 检查 
} else if (m.usePattern(pImgTag).find()) { 
... @Himage tag， 检 查 是 否 合适 ... 

} else if (! needClose && m.usePattern(pLink).find()) { 
... RAR, Bit... 
needClose = true; 

} else if (needClose && m.usePattern(pLinkx).find()) { 
System.out.println("/LINK [" + m.group() + "]"); 
needClose = false; 

} else if (m.usePattern(pEntity).find()) { 

// 容许 出 现 &gt ;和 &#1237; 之 类 的 entity 

} else if (m.usePattern(pNonHtml).find()) { 
// 容许 出 现 其 他 非 单 词 的 非 HTML 代码 

} else { 

// 完全 无 法 匹配 ， 肯 定 出 了 错 ， 在 此 处 选取 一 段 文 字 用 于 错误 输出 
m.usePattern(Pattern.compile("\\G(?s).{1,12}")).find(); 
System.out.printin("Bad char before '" + m.group() + "'"); 
System.exit(1); 

} 

} 

if (needClose) { 
System.out.println("Missing Final </A>"); 
System.exit(1); 

} 


因为 java.util.regex fj bug, 4E HTML 的 匹配 尝试 即使 不 成 功 ， 仍 然 会 “占用 ”目标 字 
符 串 中 的 一 个 字符 ， 所 以 我 把 这 段 程序 放 在 最 后 。 这 个 bug 仍然 存在 ， 只 是 表现 为 错误 输 
出 中 缺少 第 一 个 字符 。 我 已 经 把 这 个 bug 提交 给 Sun, 


此 bug 没有 修正 之 前 ， 该 如 何 使 用 单个 参数 的 find 方法 来 解决 此 问题 呢 ?” 人 人 请 翻 到 下 页 
查看 答案 。 
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在 单个 参数 的 find0 中 使 用 多 个 Pattern 


+ 第 399 页 问题 的 答案 


在 第 399 页 的 程序 中 ，java.util.regex 错误 地 设置 了 matcher 的 “当前 位 置 "， 所 以 
下 一 次 查找 会 从 错误 的 位 置 开始 。 我 们 可 以 绕 过 这 个 bug， 自 己 记录 “当前 位 置 "， 使 
用 单个 参数 的 find 从 此 位 置 开始 查找 。 


程序 中 修改 的 部 分 以 高 亮 显 


Pattern pWord 
Pattern pNonHtml 
Pattern pImgTa 
Pattern pLink 


aN 


Pattern.compile("\\G\\w+"); 
Pattern.compile("\\G[*\\we>&]+"); 
Pattern.compile("\\G(?i)<img\\s+([*>]+)>"); 
Pattern.compile("\\G(?i)<A\\s+([*>]+)>"); 
Pattern pLinkx Pattern.compile(*\\G(?i)</A>"); 

Pattern pEntity Pattern.compile("\\G& (#\\d+1\\w+);"); 
Boolean needClose = false; 

Matcher m = pWord.matcher(html); // #4. Pattern 对 象 都 能 生成 Matcher 对 象 
Integer currentLoc = 0; 

while (currentLoc < html.length()) 

{ 


if (m.usePattern(pWord) .find(currentLoc)) { 
.. .了 m.group() 包 含 一 个 单词 或 数值 ， 可 以 进行 对 应 的 检查 
} else if (m.usePattern(pImgTag) .find(currentLoc)) { 
. È image Lag， 检 查 是 否 合适 .. ， 
else if (! needClose && m.usePattern(pLink).find(currentLoc)) { 
， 有 起 链接 ， 验 证 ... 
needClose = true; 
else if (needClose && m.usePattern(pLinkx) .find(currentLoc)) { 
System.out.println("/LINK [" + m.group() + "]"); 
needClose = false; 
else if (m.usePattern(pEntity).find(currentLoc)) { 
// 容许 出 现 &gt; 和 &#123; 之 类 的 entity 
else if (m.usePattern(pNonHtml).find(currentLoc)) { 
// 容许 出 现 其 他 非 单词 的 非 HTML 代码 
else { 
// 完全 无 法 匹配 ， 肯 定 出 了 错 ， 在 此 处 选取 一 段 文字 用 于 错误 输出 
m.usePattern(Pattern.compile("\\G(?s).{1,12}")).find(currentLoc) ; 
System.out.println("Bad char at '" + m.group() + "'"); 
System.exit (1); 
} 
currentLoc = m.end(); //“ 当 前 位 置 ”指向 上 次 匹配 的 结尾 
} 
if (needClose) { 
System.out.printin("Missing Final </A>"); 
System.exit(1); 
} 


与 之 前 的 程序 不 同 , 这 里 调用 find 时 指定 了 检索 的 开始 偏 移 值 , 所 以 不 必 指 定 region, 
不 过 ， 你 可 以 自己 维护 这 个 region， 在 每 次 find 之 前 恰当 地 调用 region, 


m.usePattern(pWord) .region(start, end) .find(currentLoc) 





www.TopSage.com 


Java 版本 差异 401 


解析 CSV 文档 


Parsing Comma-Separated Values (CSV) Text 


这 里 是 用 java.util.regex 写 的 解析 CSV 的 例子 (参见 第 6 章 了 271)。 这 里 的 程序 使 用 
占有 优先 量词 (了 142) 取代 固化 分 组 ， 因 为 这 样 看 起 来 更 清楚 。 


String regex = // 双 引 号 字段 保存 到 group(1)， 非 引号 字段 保存 到 group1{2) 


\\G(2:%1,) \n"+ 

= Les \n"+ 
# 要 么 是 双 引 号 字段 ... \n"+ 

j \" # 开头 双 引 号 \n"+ 
CEA eo (?: KOR LP ee ye ) \n"+ 

\" # 结束 双 引 号 \n*+ 

©. f... RŽ... \n"+ 
y # 非 引 用 ， 非 运 号 文本 ,. . \n"+ 
. ((*\*,] *+) \n"+ 


" 


) \n"; 
// 根据 上 面 的 表达 式 创建 matcher， 解 析 其 中 的 一 行 CSV 文档 
Matcher mMain = Pattern.compile(regex, Pattern.COMMENTS) .matcher {line); 
// steam!" eh matcher, BARLAPH ARH 


Matcher mQuote = Pattern.compile("\"\"").matcher(""); 


while (mMain.find()) 
{ 
String field; 
if (mMain.start(2) >= 0) 


field = mMain.group(2); // 非 引 号 字段 ， 直 接 使 用 
else 


// 引用 字段 ， 用 单 引 号 替 接 两 个 相连 的 引号 
field = mQuote.reset (mMain.group(1)).replaceAll("\""); 


// 现在 处 理 字 段 的 内 容 ... 
System.out.printlin("Field [" + field + "]"); 
} 


这 个 程序 比 第 217 页 的 原始 程序 效率 要 高 很 多 , 原因 在 于 ; 正则 表达 式 效 率 更 高 ， 按 照 第 6 
章 第 271 页 介绍 的 办 法 ， 重 复 使 用 单个 Matcher (通过 单个 参数 版 本 的 reset H), mit 
有 不 断 创建 -回收 Mather, 


Java 版 本 差异 


Java Version Differences 


本 章 开头 已 经 提 到 ， 本 书 主要 针对 Java 1.5.0, 不 过 ， 目前 Java 1.4.2 仍然 在 广泛 应 用 ， 而 
Java 16 已 经 整装待发 (已 经 发 布 了 beta 版 ， 但 不 会 很 快 发 布 正式 版 )。 所 以 ， 我 得 简要 地 
提 一 下 1.4.2 和 1.5.0 (Update 7) 之 间 的 差异 ， 以 及 1.5.0 和 目前 的 1.6 “build 59g” 的 差异 。 


lf 
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1.4.2 和 1.5.0 之 间 的 差异 


Differences Between 1.4.2 and 1.5.0 


相对 Java 1.4.2, Java 15.0 添加 了 许多 新 的 方法 。 大 多 数 新 的 方法 主要 是 为 了 支持 Matcher 
的 检索 范围 。 此 外 ，Unicode 支持 也 升级 并 提高 了 效率 。 所 有 的 变化 都 在 下 面 两 节 详 细 介绍 
( 注 9)。 


1.5.0 中 的 新 方法 
与 检索 范围 相关 的 Matcher 方法 都 没有 出 现在 Java 1.4.2 中 : 


region 

regionStart 
regionEnd 
useAnchoringBounds 
hasAnchoringBounds 


useTransparent Bounds 
hasTransparent Bounds 


Java 1.4.2 也 不 包含 下 面 的 方法 : 


toMatchResult 
hitEnd 
requireEnd 
usePattern 
toString 


Java 1.4.2 不 包含 下 面 这 个 static HH: 


# Pattern.quote 


1.4.2 #1 1.5.0 关于 Unicode 支持 的 差异 
1.4.2 和 1.5.0 在 Unicode 相关 的 问题 上 有 这 些 变化 : 


。 Java 1.4.2 的 Unicode 使 用 的 是 Unicode Version 3.0.0, 1.5.0 使 用 的 是 Unicode Version 
4.0.0。 这 个 改变 影响 到 很 多 方面 , 例如 字符 的 定义 (例如 , 在 Version 3.0.0 中 ，\uFFFF 
之 后 是 没有 代码 点 的 )， 以 及 属性 和 Unicode 区 块 的 定义 。 


。 增强 了 通过 ' 玫 p{…} 和 和 八 P{(…)1 引 用 区 块 的 方式 (参加 Java 关于 Character. 
UnicodeBlock 的 文档 ， 得 到 区 块 列表 及 其 正式 名 称 )。 





注 9: 递归 结构 '(?1) 1 未 在 文档 中 说 明 , 在 Java 1.4.2 中 是 非 正式 提供 的 , 在 1.5.5 中 已 经 不 再 包 
含 。PCRE 也 是 如 此 ， 但 是 Java 没有 在 文档 中 说 明 ， 我 们 在 这 里 用 脚注 来 说 明 。 
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Java 1.4.2 中 的 规则 是 “去 掉 官 方 代码 块 名 字 中 的 空格 ， 和 开头 的 In”。 这 样 ， 区 块 引 


用 就 类 似 \p{InHangulJamo} 和 \p{InArabicPresentationForms-A}。 


1.5.0 添加 了 两 种 新 的 区 块 命名 。 可 以 在 官方 块 名 称 之 前 直接 添加 “In' ， 所 以 名 字 可 
以 为 \p{InHangul*Jamo} 和 \p{InArabic"*Presentation*Forms-A}。 也 可 以 给 Java 的 


区 块 标识 符 添 加 前 级 “In”( 是 官方 名 称 ， 将 空格 和 连 字 符 替换 为 下 夯 线 ) 


\p{InHangul_Jamo} 和 \p{InArabic_Presentation_Forms_A}, 


* Java 1.4.2 存在 一 个 古怪 的 bug, Arabic Presentation Forms-B 和 Latin Extended-B 
结尾 的 “B” 必须 写作 “Bound” > 也 就 是 说 \p {InArabicPresentationForms-Bound)} 
和 \p{InLatinExtended-Bound}。 


e Java 1.5.0 中 Character 类 的 isSomeing 方法 支持 正则 表达 式 (9369), 


1.5.0 和 1.6 之 间 的 差异 


Differences Between 1.5.0 and 1.6 


写作 本 书 时 已 经 发 布 的 1.6 和 1.5.0 在 正则 表达 式 的 问题 上 只 有 两 个 细微 的 差别 ; 
。*。 = Java 1.6 提供 了 之 前 没有 的 对 Pi 和 Pf 的 Unicode 分 类 的 支持 。 
© ‘\o---\E) HRY bug 已 经 修正 了 ， 所 以 在 字符 组 中 可 以 正常 工作 。 
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第 章 


.NET 


.NET 


Microsoft 的 .NET Framework 中 可 以 使 用 Visual Basic、 C# 和 C++( 以 及 其 他 许多 语言 ), NET 
提供 了 公用 的 正则 表达 式 库 , 统一 了 不 同 语言 之 间 的 正则 表达 式 语意 。 它 的 引擎 特性 完备 ， 
功能 强大 ， 容 许 我 们 在 速度 和 便利 之 间 求 得 最 大 的 均衡 ( 注 1), 


每 种 语言 在 处 理 对 象 和 方法 时 都 有 不 同 的 语意 ， 但 是 某 些 基本 的 对 象 和 方法 在 所 有 语言 中 
都 是 相通 的 ， BD 的 都 可 以 直接 转换 到 .NET 语言 套件 中 
的 其 他 语言 中 。 serena 用 Vis 














: won BEI, 第 1 到 6 章 的 基础 知识 对 理解 本 章 非 
靖 读 者 可 能 会 从 本 章 开 始 阅 读 这 本 书 ， 我 希望 他 们 
AMORA: 1, 2. 3 章 介绍 了 与 正则 表达 式 
5. ORAM TS HME MAAR LAAN, È 
JUURI REA E NFA 引擎 进行 匹配 的 


xax. amn. sA 
UIR IRN Ce 
相关 的 基本 概念 、 特 性 稳 丢 玉 . 
们 可 以 直接 应 用 到 .NET | 
基本 原理 、 oe ee 


接 下 来 要 强调 的 是 ， 除 了 上 ras 
第 123 页 ， 我 并 不 希望 这 本 书 


页 ， 和 第 3 章 从 第 114 页 到 
精通 正则 表达 式 的 详细 教科 书 。 





: 本 书 针 对 .NET Framework 





(随同 Visual Studio 2005 一 起 发 售 ) . 
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本 章 首 先 介绍 .NET 的 正则 流派 , 包括 元 字符 的 支持 事宜 , 以 及 .NET 程序 员 必 须 面 对 的 特殊 
问题 。 然 后 是 总 括 .NET 中 正则 表达 式 相 关 的 对 象 模型 ， 详 细 讲解 居于 核心 地 位 的 ， 与 正则 
表达 式 相 关 的 类 。 最 后 用 例子 来 说 明 ， 如 何 将 预先 构建 好 的 正则 表达 式 封装 到 共享 的 装配 
件 (assembly) 中 ， 组 成 个 人 的 正则 表达 式 库 。 


NET 的 正则 流派 


,NET s Regex Flavor 
.NET 使 用 的 是 传统 型 NFA 引擎 ， 所 以 第 4、5、6 章 讲 解 的 NFA 的 知识 都 适用 于 .NET。 下 
一 页 的 表 9-1 简要 说 明了 .NET 的 正则 流派 ， 其 中 大 部 分 已 经 在 第 3 章 介绍 过 。 


在 接收 正则 表达 式 的 函数 和 结构 申 设置 标志 位 (人 Bg》 ， 或 是 在 正则 表达 式 之 内 使 用 
‘( 2modes-modes) | #il' (?mods-mods@-) 结构 BY) DLA AAI aK 流派 的 许多 方 
面 也 会 因此 发 生变 化 (9110), 408 WHIZ 9-2 Hiei 了 这 些 模式 :; 


其 中 包括 了 "\wj 之 类 的 “ 纯 ” 转 义 。 它 们 可 以 直接 用 到 VB.NET 的 字符 串 文字 ("\w") 和 
C# 的 verbatim 字符 串 (@"\w") 中 。C++ 的 语言 没有 提供 针对 正则 表达 式 的 字符 串 文字 ， 所 
以 正则 表达 式 中 的 反 斜 线 在 字符 串 文 本 中 需要 双 写 -("\\w" )。 请 参考 “作为 正则 表达 式 的 
字符 申 ”( 宁 101)。 


下 面 是 对 表 9-1 的 补充 说 明 : 
O \b 只 有 在 字符 组 内 部 才 作 为 退 格 符 。 在 字符 组 之 外 ，\b 匹配 单词 分 界 符 (7133), 
\x## 容 许 出 现 两 位 十 六 进 制 数字 ， 例 如 "xFCber Ei ‘über’, 


\u#### 容 许 且 只 容许 四 位 十 六 进 制 数 字 ， 例 如 '\u00FCber; PLAC ‘aber’, '\u20Ac, pE 
Ac ‘e’. 


© .NET Framework Version 2.0 中 的 字符 组 支持 集合 减法 , 例如 '[a-z- [aeiou]]| 表 示 小 写 
的 非 元 音 ASCI 字母 (7125), 在 字符 组 内 部 , 连 字符 之 后 又 跟着 字符 组 表示 字符 组 的 
减法 运算 ， 减 去 后 面 字符 组 内 部 的 字符 。 


© \w、\a 和 \e (以 及 对 应 的 \W、\D 和 \8) 通常 能 处 理 所 有 合适 的 Unicode 字符 ， 但 是 如 
果 启 用 了 RegexOptions.ECMAScript (412)， 就 只 能 处 理 ASCII 字符 。 


在 此 默认 模式 下 ，\w 匹配 Unicode 属性 \p{L1}、\p{Lu}、\p{Lt}、\p{Lo}、\p{Na】 
和 \p{Pc}。 请 注意 ， 其 中 并 没有 \p{Lm} (请 参考 第 123 页 的 属性 列表 )。 
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Ca 


表 9-1: NET 正则 表达 式 流 派 概览 


S EENE r Nc i ? TEE ; 
F115 (c) \a [\b] \e \f \n \r \t \w\octal \x## \u#### \cchar 


+118 PAMP: pel [^…] (TASKS MAT 125) 


7119 几乎 任何 字符 : 点 号 (根据 模式 的 不 同 ， 有 各 种 含义 ) 

7120 (c) 字符 组 缩 咯 表示 法 8: \w \d \s \W \D \s 

7121 (c) Unicode 属性 和 区 块 ?:， \p{Prop) \P{Prop} 

4 Ses 
#129 行 /字符 事 起 始 位 置 : ^ \A 

#129 行 /字符 事 结 束 位置 : $ \z \z 

#130 当前 匹配 的 起 始 位 置 8s，\G 

F133 单词 分 界 符 : \b \B 

F133 环视 结构 8: (?=…) (21e) (?<=…) (Peter) 

F135 模式 修饰 符 : (?mods-mods) 容许 出 现 的 模式 : x 8 m i n (7408) 
#135 模式 修饰 范围 : (?mods-mods:…) 

F136 注释 : (?#…) 

F137 WRN: (e) \1 \2… 

7436 对 称 分 组 : ( P<name-name>---) 

7409 命名 捕获 及 回溯 : (<name>) \k<name> 

F137 仅 分 组 的 括号 : (?:…) 

7139 固化 分 组 : (?>…) 

7139 多 选 结构 : | 

7141 匹配 优先 量词 : * + ? {n} {n,} {x,y} 

F141 忽略 优先 量词 : *? +? 2? {n}? {n,}? {x,y}? 

#109 条 件 判 断 : (Pif then|elsey)—— “if 部 分 可 以 是 环视 、 (num) Ñ (name) 
(c) 一 一 可 用 于 字符 组 内 部 @D……@ 见 说 明 


在 默认 模式 下 , \s 匹配 ["\f\n\r\t\v\x85\p{Z}]1,U+0085 是 Unicode 中 的 NEXT LINE 
控制 字符 ，\p{z} 匹 配 Unicode 的 “分 隔 符 ”字符 (7122). 


@® \p{(…} 和 \P{…} 支 持 标准 的 Unicode 属性 和 区 块 (针对 Unicode Version 4.0.1)。 不 支持 
Unicode 字母 表 。 


区 块 名 要 求 出 现 “Is” 前 缀 (参考 第 125 页 的 表格 ) ， 只 能 够 使 用 含有 空格 或 者 下 画 线 
的 格式 。 例如 ，\p{Is_Greek_Extended} 和 \p{Is Greek Extended} 是 不 容许 的 ， 正 
确 的 只 有 \p{IsGreekExtended}。 
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表 9-2: NET 的 匹配 模式 和 正则 表达 式 模式 


第 9 章 : NET 


NET 只 支持 \p{Lu) 之 类 的 短 名 称 ， 而 不 支持 \ptLowercase_Letter} 之 类 的 长 名 称 。 
单字 母 属性 也 要 求 使 用 花 括号 (也 就 是 说 ， 不 能 把 \ptr} 简 记 为 \br)。 请 参考 第 122 
和 第 123 页 的 表格 。 


NET 也 不 支持 特殊 的 复合 属性 \p{L&) ， 以 及 特殊 属性 \p{aAl1) 、\p{Assigned} 和 
\p{Unassigned}。 相 反 ， 你 可 以 使 用 (?s:. Ee '\P(Cn}), ‘\p(Cn)}s 分别 来 代替 。 


\G 表示 上 一 次 匹配 的 结束 位 置 ， 虽 然 文档 介绍 说 它 表示 本 次 匹配 的 开头 位 置 (7130), 


顺序 环视 和 逆序 环视 中 都 可 以 使 用 任意 形式 的 正则 表达 式 。 就 我 所 知 ，.NET 正则 引擎 
是 唯一 容许 在 逆序 环视 中 出 现 能 够 匹配 任意 长 度 文本 表达 式 的 引擎 (7133), 


RegexOptions.ExplicitCapture 选项 (也 可 通过 模式 修饰 符 (?n) 设 定 ) 会 禁止 普通 
的 '(…) ,括号 的 捕获 功能 。 不 过 明确 命名 的 捕获 型 括号 一 一 例如 和 (?<num>\a+) 一 一 仍 
然 有 效 (138)。 如 果 使 用 了 命名 分 组 ， 此 选项 容许 你 使 用 更 加 美观 的 '(…),， 而 不 是 
(?:…))， 来 进行 纯粹 的 分 组 。 









(<7 S: = as: 
.Singleline es 点 号 能 匹配 任何 字符 (7111) 

.Multiline m | 扩展 “和 '$) 的 匹配 (7111) 
.IgnorePatternWhitespace re | 设置 宽松 排列 和 注释 模式 (772) 

. IgnoreCase 进行 不 区 分 大 小 写 的 匹配 

.ExplicitCapture 关闭 (++) 的 捕获 功能 , 只 有 '(?<name>…) | 能 


-RightToLeft 


够 捕获 (7412) 


传动 装置 的 驱动 过 程 不 变 ， 但 是 方向 相反 (MF 
符 囊 的 末尾 开始 ， 向 开头 移动 )。 不 幸 的 是 这 个 
选项 会 有 问题 (7411) 


.ECMAScript | 限制 \w Vs 和 "\G 只 对 ASCI[ 字符 有 效 (412) 


.Compiled 多 花 些 时 间 优 化 正则 表达 式 , 这样 应 用 时 匹配 更 


迅速 (7410) 


www.TopSage.com 


.NET 的 正则 流派 409 





对 于 流派 的 补充 


Additional Comments on the Flaver 


下 面 介绍 一 些 其 他 的 相关 细节 。 


命名 捕获 


NET 支持 命名 捕获 (7138), 它 通过 和 (?<name>…) 1 或 是 '(?'name'…) | 实现 。 这 两 种 办 法 
是 等 价 的 ， 可 以 随意 选用 其 中 一 种 ， 不 过 我 更 喜欢 <…>， 因 为 我 相信 使 用 它 的 人 多 一 些 。 


要 反 向 引用 命名 捕获 匹配 的 文本 ， 可 以 使 用 八 k<nmarmme>, 或 是 \k'nmame' 


在 匹配 之 后 (也 就 是 Match 对 象 生成 之 后 :下文 从 第 416 页 开始 概要 介绍 .NET 的 对 象 模型 )， 
命名 捕获 匹配 的 文本 可 以 通过 Match 对 象 的 Groups (name) 属性 来 访问 (CHE A 


Groups [name}), 
在 replacement 字符 串 中 (了 424)， 命 名 捕获 的 结果 通过 $ name) Kihi. 


某 些 情况 下 ， 可 能 需要 按 数字 顺序 访问 所 有 的 分 组 ， 所 以 命名 捕获 的 分 组 也 会 被 标 上 序号 。 
它们 的 编号 从 所 有 未 命名 的 分 组 之 后 开始 ; 


1 13 32 2 
'(\w) (?<Num>\d+) (Ne+)) 


本 例 中 , 我 们 可 以 用 Groups ("Num") X Groups (3) 来 访问 人 da+ 匹配 的 文本 。 这 两 个 名 字 对 
应 同一 个 分 组 。 


不 幸 的 结果 


一 般 情况 下 不 应 该 把 正常 的 捕获 型 括号 和 命名 捕获 混合 起 来 ， 不 过 如 果 你 这 样 做 了 ， 就 必 
须 彻 底 理解 捕获 分 组 的 编号 顺序 。 如 果 捕 获 型 括号 用 于 split (7425), 或 者 在 replacement 
字符 捉 中 使 用 了 “$+”(424)， 编 号 就 很 重要 。 


条 件 测试 


如 果 '(?ifthenlelse) 中 的 六 部 分 (7140) 可 以 使 用 任意 类 型 的 环视 结构 ,也 可 以 在 括号 中 
使 用 捕获 分 组 的 编号 ， 或 者 是 命名 分 组 的 名 字 。 这 里 出 现 的 纯 文 本 (或 者 纯正 则 表达 式 ) 

会 被 自动 当 作 肯定 型 顺序 环视 来 处 理 (也 就 是 说 ， 可 以 将 其 看 作 (?=…)) 包围 的 结构 )。 这 
可 能 带 来 麻烦 : 例如 ， 1...(? (Num) then ielse) -3 PR 1(Num) 会 变 为 "(?=Num), (也 就 是 顺序 
环视 的 “Num'" ) ， 如 果 在 正则 表达 式 的 其 他 地 方 没有 出 现 (?<Num>…) ,时 会 这 样 。 如 果 存 在 
这 样 的 命名 捕获 ， 引 判断 的 就 是 它 是 否 捕获 成 功 。 
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我 推荐 不 要 依赖 这 种 “自动 化 顺序 环视 (auto-lookaheadfication)”， 而 明确 使 用 '(?=…) 48 
意图 传达 给 看 程序 的 人 ， 这 样 如 果 正 则 引擎 在 未 来 修改 了 语法， 也 不 会 带 来 意外 。 


“编译 好 的 ”正则 表达 式 


在 前 面 几 章 ， 我 使 用 “编译 (compile)” 这 个 词 来 描述 所 有 正则 表达 式 系 统 中 ， 在 应 用 正则 
表达 式 之 前 必须 做 的 准备 工作 ， 它 们 用 来 检查 正则 表达 式 是 否 格式 规范 ， 并 将 其 转换 为 能 
够 实际 应 用 的 内 部 形式 。 在 .NET 的 正则 表达 式 中 ， 它 的 术语 是 “解析 (parsing)”, .NET 
使 用 两 种 意义 的 “编译 ”来 指 涉 解析 阶段 的 优化 。 


下 面 是 增进 优化 效果 的 细节 : 


。 解析 (Parsing) 程序 在 执行 过 程 中 , 第 一 次 遇 到 正则 表达 式 时 必须 检查 它 是 否 格 式 规 
范 ， 并 将 其 转换 为 适 于 正则 引擎 实际 应 用 的 内 部 形式 。 此 过 程 在 本 书 的 其 他 部 分 称 为 
“编译 (compile)” , 


° “ 即 用 即 编译 (On-the-Fly Compilation) 在 构建 正则 表达 式 时 , 可 以 指定 RegexOptions. 
compiled 选 项 。 它 告诉 正则 引擎 , 要 做 的 不 仅 是 此 表达 式 转 换 为 某 种 默认 的 内 部 形式 ， 
而 是 编译 为 底层 的 MSIL (Microsoft Intermediate Language) 代码 ， 在 正则 表达 式 实 际 
应 用 时 ， 可 以 由 JIT (“Just-In-Time” 编 译 器 ) 优化 为 更 快 的 本 地 机 器 代码 。 


这 样 做 需要 花费 更 多 的 时 间 和 空间 ， 但 这 样 得 到 的 正则 表达 式 速度 更 快 。 本 节 之 后 会 
讨论 这 样 的 权衡 。 


。 _ 预 编译 的 正则 表达 式 一 个 (或 多 个 ) Regex 对 象 能 够 封装 到 DLL (Dynamically Loaded 
Library， 例 如 共享 的 库 文件 ) 中 ， 保 存在 磁盘 上 。 这 样 其 他 的 程序 也 可 以 直接 调用 它 。 
称 为 “编译 装配 件 (assembly)”。 请 参考 “正则 表达 式 装 配件 ”( 灾 434) 获得 更 多 信息 。 


如 果 使 用 Regexoptions .compileda 来 进行 “ 即 用 即 编译 ”的 编译 ,在 启动 速度 ， 持 续 内 存 
占用 和 匹配 速度 之 间 ， 存 在 此 消 彼 长 的 关系 : 












较 慢 (最 多 提升 60 倍 ) 
多 (每 个 表达 式 占用 5-15KB) 
最 多 能 提升 10 倍 


在 程序 第 一 次 遇 到 正则 表达 式 时 进行 初始 的 正则 表达 式 解 析 (默认 情况 ， 即 不 用 Regexop- 
tions.Compiled) 相对 来 说 是 很 快 的 。 即 使 在 我 这 台 有 年 头 的 SSOMHz NT 的 机 器 上 ， 每 
秒 钟 也 能 进行 大 约 1 500 次 复杂 编译 。 如 果 使 用 RegexOptions .Compiled， 则 速度 下 降 到 
每 秒 25 次 ， 每 个 正则 表达 式 需 要 多 占用 大 约 10KB 内 存 。 
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更 重要 的 是 ， 在 程序 的 执行 过 程 中 ， 这 块 内 存 会 一 直 占 用 一 一 它 无 法 释放 。 


在 对 时 间 要 求 不 严格 的 场合 使 用 RegexOptions.Compiled 无 疑 是 很 有 意义 的 , 在 这 里 , 速 
度 是 很 重要 的 ， 尤 其 是 需要 处 理 大 量 的 文本 时 更 是 如 此 。 另 一 方面 ， 如 果 正 则 表达 式 很 简 
单 ， 需 要 处 理 的 文本 也 不 是 很 多 ， 这 样 做 就 没有 意义 。 如 果 情 况 不 是 这 样 黑 白 分 明 ， 该 如 
何 选 择 就 不 那么 容易 了 一 一 必须 具体 情况 具体 分 析 ， 以 进行 取舍 。 


某 些 情况 下 , 把 编译 的 正则 表达 式 作 为 “编译 好 的 ”正则 对 象 封装 到 DLL 中 是 很 有 价值 的 。 
最 终 的 程序 所 占 的 内 存 更 少 〈 因 为 不 必 装 载 编译 正则 表达 式 所 需 的 包 ) ， 装 载 速度 更 快 ( 因 
为 在 DLL 生成 时 它们 已 经 编译 好 了 ， 只 需要 直接 使 用 即 可 )。 另 一 个 不 错 的 副产品 就 是 ， 

表达 式 还 可 以 供 其 他 需要 的 程序 使 用 ， 所 以 这 是 一 种 组 建 个 人 正则 表达 式 库 的 好 办 法 。 请 
参考 第 435 页 的 “使 用 装配 件 构建 自己 的 正则 表达 式 库 ”。 





从 右 向 左 的 匹配 


长 期 以 来 ， 正 则 表达 式 的 开发 人 员 一 直 疯 狗 着 “ 反 向 (backwards)” PCAC (MMEA, mi 
不 是 从 左 向 右 )。 对 开发 人 员 来 说 ， 最 大 的 问题 可 能 是 ,“ 从 右 向 左 ” 的 匹配 到 底 是 什么 意 
思 ? 是 整个 正则 表达 式 都 需要 反 过 来 吗 ? 还 是 说 ， 这 个 正则 表达 式 仍然 在 目标 字符 串 中 进 
行 尝试 ， 只 是 传动 装置 从 结尾 开始 ， 驱 动 过 程 从 右 向 左 进行 ? 


抛 开 这 些 纯粹 的 概念 ， 看 个 具体 的 例子 : 用 \a+, 匹 配 字 符 串 “123'and"456" 。 我 们 知道 正 
常情 况 下 结果 是 “123" ， 根 据 直 觉 ， 从 右 向 左 匹 配 的 结果 应 该 是 “456' 。 不 过 ， 如 果 正 则 
引擎 使 用 的 规则 是 ， 从 字符 捉 末 尾 开 始 ， 驱 动 过 程 从 左 向 右 进行 ， 结 果 可 能 就 会 出 平 意料 。 
在 某 些 语意 下 ， 正 则 引擎 能 够 正常 工作 (从 开始 的 位 置 向 右 “看 ”")， 所 以 第 一 次 尝试 \dq+， 
是 在 “…456、， 这 里 无 法 匹配 。 第 二 次 尝试 在 “…45.,6`" ， 这 里 能 够 匹配 ， 所 以 驱动 过 程 开 
始 “考察 ”位 置 “6" ， 这 当然 可 以 匹配 \a+;， 所 以 最 后 的 结果 是 “6 "。 


NET 的 正则 表达 式 提供 了 RegexOptions. RightToLeft 的 选项 。 但 它 究 竟 是 什么 意义 呢 ? 
答案 是 :“ 这 问题 值得 思索 。” 它 的 语意 设 有 文档 ， 我 测试 了 也 无 法 找到 规律 。 在 许多 情况 
下 一 一 例如 “123'and"456 ， 它 给 出 符合 直觉 的 结果 (也 就 是 “456  ) 。 
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不 过 ， 有 时 候 也 会 报告 没有 匹配 结果 ， 或 是 匹配 跟 其 他 结果 相 比 毫 无 意义 的 文本 。 


如 果 需 要 进行 从 右 向 左 的 匹配 ， 你 可 能 会 发 现 ，RegexOoptions .RightToLeft 似乎 能 得 到 
你 期 望 的 结果 ， 但 是 最 后 ， 你 会 发 现 这 样 做 得 冒 风险 。 


反 斜 线 -数字 的 二 义 性 


数字 跟 在 反 斜 线 之 后 ， 可 能 表示 十 进 制 数 的 转 义 ， 也 可 能 是 反 向 引用 。 到 底 应 该 如 何 处 理 ， 
取决 于 是 否 指定 了 RegexOptions .ECMAScript 选项 。 如 果 你 不 关心 其 中 的 细微 差别 , 不 妨 
一 直 用 、\k<nmurm>, 表 示 反 向 引用 , 或 者 在 表示 十 进 制 数 时 以 0 开头 (例如 入 081)。 这 两 种 办 


法 不 受 RegexOptions .ECMAScript 的 影响 。 


如 果 没 有 使 用 Regexoptions .ECMASCript, 从 "1 到 9, 的 单个 转 义 数字 通常 代表 反 向 引 
用 ,而 以 0 开头 的 转 义 数字 通常 代表 十 进 制 转 义 (例如 ,"\012, 匹配 ASCII 的 进 纸 符 
linefeed)， 除 此 之 外 的 所 有 情况 下 ， 如 果 “ 有 意义 ”( 也 就 是 说 某 个 正则 表达 式 中 有 足够 
多 的 捕获 型 括号 ), 数字 都 会 被 作为 反 向 引用 来 处 理 。 否 则 ,如果 数 字 的 值 处 于 \000 和 \377 
之 间 , 就 作为 十 进 制 转 义 。 例如, 如 果 捕 获 型 括号 的 数目 多 于 12, 则 信 12, 会 作为 反 向 引用 ， 
否则 就 会 作为 十 进 制 数字 。 


下 一 节 详 细 讲解 Regexoptions .ECMAScript 的 语意 。 
ECMAScript 模式 


ECMAScript 的 基础 是 一 种 标准 版 本 的 JavaScript ( 注 2)， 还 包含 了 它 自己 的 解析 和 应 用 正 
则 表达 式 的 语意 。 如 果 使 用 RegexOptions .ECMAScript 选项 ，.NET 的 正则 表达 式 就 会 模 
所 这 些 语意 。 如 果 你 不 明白 ECMASCript 的 含义 , 或 者 不 需要 兼容 它 , 就 完全 可 以 忽略 该 节 。 


如 果 启 用 了 Regexoptions .ECMASCript ， 将 会 应 用 下 面 的 规则 : 
* RegexOptions.ECMAScript 只 能 与 下 面 的 选项 同时 使 用 ， 


RegexOpt ions. IgnoreCase 


RegexOptions.Multiline 
RegexOpt ions.Compiled 


e \w, \d, \s. W. \D, \s 只 能 匹配 ASCI 字符 。 


ił 2: ECMA 表示 “European Computer Manufactures Association (欧洲 计算 机 制造 商 协会 )”， 成 
LF 1960 年 ， 任 务 是 为 不 断 发 展 计算 机 的 各 个 方面 制定 标准 。 


if 
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。 “正则 表达 式 中 的 反 斜 线 -数字 的 序列 不 会 有 反 向 引用 和 十 进 制 转 义 的 二 义 性 ， 它 只 能 表 
示 反 向 引用 ， 即 使 这 样 需要 截断 结尾 的 数字 。 例 如 ，(…)\10, 中 的 10, 会 被 处 理 为 ， 
第 1 组 捕获 性 括号 匹配 的 文本 ， 然 后 是 文字 “0 。 


使 用 .NET 正则 表达 式 


Using .NET Regular Expressions 


NET 正则 表达 式 功 能 强大 ， 语 法 清晰 ， 通 过 完整 而 易于 使 用 的 类 接口 来 操作 。 虽 然 微软 的 
正则 表达 式 包 做 得 很 漂亮 ， 文 档 却 相反 一 一 它 非常 精 糕 。 文 档 不 够 全 面 ， 编 写 不 够 清晰 ， 
缺乏 组 织 ， 有 时 甚至 不 能 保证 正确 性 。 我 花 了 很 长 的 时 间 才 整理 清楚 ， 所 以 希望 这 一 章 的 
内 容 能 够 让 读者 更 清楚 地 理解 .NET 的 正则 表达 式 。 


正则 表达 式 快 速 入 门 


Regex Quickstart 


即使 不 需要 知道 正则 类 模型 (regex class model) 的 细节 ， 也 可 以 直接 上 手 使 用 .NET 的 正则 
表达 式 包 。 理 解 细节 能 够 让 我 们 获得 更 多 的 信息 ， 提 高 工作 效率 ， 但 是 下 面 这些 简 单 的 例 
子 没 有 明确 创建 任何 正则 类 ， 细 节 将 在 例子 之 后 提 到 |。 


使 用 正则 表达 式 库 的 程序 必须 在 文件 的 开头 写 上 下 面 这 条 语句 ， 下 面 的 例子 假设 此 句 已 经 
存在 : 


Imports System.Text.RegularExpressions 


下 面 的 例子 都 能 正常 处 理 string 变量 Teststr。 本 章 的 所 有 例子 中 , 选用 的 变量 名 都 以 余 
体 标 注 。 


快速 入 门 : 在 字符 串 中 寻找 匹配 
这 段 程序 检查 一 个 正则 表达 式 是 否 能 匹配 字符 申 : 


If Regex.IsMatch(TestStr, "*\s*$") 
Console.WriteLine("line is empty") 
Else 
Console.WriteLine("line is not empty”) 
End If 


这 个 例子 使 用 了 匹配 模式 : 


If Regex.IsMatch(TestStr, "“subject:", RegexOptions. IgnoreCase) 
Console.WriteLine("line is a subject line") 

Else 
Console.WriteLine("line is not a subject line") 

End If 


iil 
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快速 入 门 ， 匹配 ， 获 得 匹配 文本 
这 个 例子 显示 正则 表达 式 实际 匹配 的 文本 。 如 果 没 有 匹配 ，TheNum 就 是 空 字符 串 。 


Dim TheNum as String = Regex.Match(TestStr, "\d+") .Value 
If TheNum <> "" 

Console.WriteLine("Number is: " & TheNum) 
End If 


这 个 例子 使 用 了 一 个 匹配 模式 ; 


Dim ImgTag as String = Regex.Match(TestStr, "<img\b[*>]*>", 
RegexOptions.IgnoreCase) .Value 
If ImgTag <> "" 
Console.WriteLine("Image tag: " & ImgTag) 
End If 


快速 入 门 : 匹配 ， 获 得 捕获 文本 
这 段 程序 以 字符 串 的 形式 返回 第 1 个 捕获 分 组 的 匹配 文本 : 


Dim Subject as String = _ 
Regex.Match(TestStr, "*Subject: (.*)").Groups(1).Value 
If Subject <> ** 
Console.WriteLine("Subject is: " & Subject) 
End If 


请 注意 ， 在 C# 中 应 使 用 Groups [1] 取 代 Groups (1), 
下 面 的 程序 目的 相同 ， 只 是 使 用 了 match 选项 ， 


Dim Subject as String = _ 
Regex.Match(TestStr, ““subject: (.*)", — 


RegexOptions.IgnoreCase) .Groups(1).Value 
If Subject <> "" 


Console.WriteLine("Subject is: " & Subject) 
End If 


仍然 是 相同 的 程序 ， 只 是 使 用 命名 捕获 : 


Dim Subject as String = _ 
Regex.Match(TestStr, "“subject: (?<Subj>.*)", _ 
RegexOptions.IgnoreCase) .Groups ("Subj") .Value 
If Subject <> "" 
Console.WriteLine("Subject is: " & Subject) 
End If 


快速 入 门 : 查找 和 符 换 
这 个 例子 把 输入 的 字符 串 转 换 为 HTML“ 安 全 ”的 字符 ， 把 特殊 的 HTML 转换 为 HTML 


entity ; 


TestStr = Regex.Replace(TestStr, "&", "&amp;") 
TestStr = Regex.Replace(TestStr, "<", "&lt;") 
TestStr = Regex.Replace(TestStr, ">", "&gt;") 


Console.WriteLine("Now safe in HTML: " & TestStr) 
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replacement 字符 串 (第 3 个 参数 ) 的 处 理 是 很 特殊 的 ， 第 424 页 的 补充 内 容 做 了 讲解 。 例 
如 ， 在 replacement 字符 申 中 ，' $s” 会 被 正则 表达 式 真正 匹配 的 文本 所 替代 ， 下 面 的 例子 
给 大 写 的 单词 添加 <B>…</B>: 


TestStr = Regex.Replace(TestStr, "\b[A-Z]\w*", "<B>$&</B>") 
Console.WriteLine("Modified string: ”& TestStr) 


这 个 例子 把 <B>…</B> (使 用 不 区 分 大 小 写 的 匹配 ) 替换 为 <I>…</I>: 


TestStr = Regex.Replace(TestStr, "<b>(.*?)</b>", "<I>$1l</I>", _ 
RegexOptions.IgnoreCase) 
Console.WriteLine("Modified string: " & TestStr) 


包 概览 


Package Overview 


通过 丰富 而 便捷 的 类 结构 ， 可 以 使 用 .NET 正则 表达 式 几 乎 所 有 的 功能 。 下 面 这 个 完整 的 控 
制 台 程 序 ， 提 供 了 关于 整个 包 的 概览 ， 它 明确 使 用 各 种 对 象 来 进行 简单 的 匹配 。 


Option Explicit On ' 使 用 正则 表达 式 时 并 非 必须 这 样 写 
Option Strict On ' 但 这 样 做 是 个 好 习惯 

' 简化 正则 表达 式 相 关 的 类 的 访问 

Imports System. Text .RegularExpressions 


Module SimpleTest 
Sub Main(} 
Dim Samplefext as String = “this is the lst test string" 
Dim g as Regex = New Regex("\d+\w+") "编译 这 个 pattern 
Dim ¥ as Match = &.match(Samlefext) ' 应 用 到 字符 事 中 
If not A. Success 
Console.WriteLine("no match") 
Else 
Dim MatchedText as String = M.Value ' 音 询 结 果 ... 
Dim MatchedFram as Integer = #. index 
Dim Matchedien as Integer = M.Length 
Console.WriteLine("matched [" & MatchedText & "|" & _ 
" from char#" & MatchedFram.ToString() & _ 


"for " & MatchedZLen.ToString() & " chars.") 
End If 


End Sub 
End Module 


通过 命令 行 提示 符 来 执行 ， 把 \d+ \w+ 应 用 到 同样 的 文本 ， 结 果 是 ; 


matched [lst] from char#12 for 3 chars. 


导入 正则 表达 式 名 字 空 间 


你 注意 到 程序 头 部 的 Imports System.Text.RegularExpressions 了 吗 ? 任何 用 到 .NET 
正则 对 象 的 VB 程序 都 必须 写 上 这 一 条 语句 ， 才 能 通过 编译 。 
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C# 中 对 应 的 是 : 
using System.Text.RegularExpressions; //C# 中 应 这 么 写 
这 个 例子 说 明了 基本 的 正则 对 象 的 用 法 ， 下 面 两 行 主要 行为 : 


Dim R as Regex = New Regex("\d+\w+") ' 编 译 这 个 pattern 
Dim M as Match = R.match(SampleText) ' 应 用 到 字符 事 中 


也 可 以 合并 为 一 行 : 

Dim M as Match = Regex.Match(SampleText, “\d+\w+") ‘F488 pattern 
合并 的 写法 更 容易 使 用 ， 程 序 员 需 要 输入 的 代码 更 少 ， 需 要 记录 的 对 象 也 更 少 。 不 过 ， 它 
的 效率 会 稍微 低 一 些 (7432), 在 下 面 几 页 中 , 我 们 首先 会 看 到 原始 的 对 象 ， 然 后 学 习 “ 便 
E AR, Aittir Regex.Macch， 以 及 合适 的 使 用 时 机 。 

为 简便 起 见 ， 在 程序 片段 的 例子 中 ， 我 会 省 略 下 面 这 几 行 ; 

Option Explicit On 


Option Strict On 
Imports System. Text .RegularExpressions 


BAIR 96, 99, 204, 219 和 237 页 出 现 过 VB 的 例子 ， 回 顾 它 们 也 许 有 所 帮助 。 


核心 对 象 概览 


Core Object Overview 


在 深入 细节 之 前 ， 先 来 看 看 .NET 的 正则 对 象 模型 。 对 象 模型 是 一 套 类 结构 ， 正 则 表达 式 的 
各 种 功能 通过 它们 来 提供 。.NET 的 正则 功能 通过 7 个 高 度 交 互 的 类 来 提供 ， 实 际 上 你 可 能 
只 需要 理解 其 中 3 个 一 一 也 就 是 下 一 页 的 图 9-1 所 示 的 3 个 类 一 一 即 可 ,它们 展示 了 对 “May* 
16,"1998” 重 复 应 用 "s+ (\a+) ,的 过 程 。 





Regex 对 象 


第 一 步 是 创建 Regex MR, Win: 


Dim R as Regex = New Regex("\s+(\d+)") 


在 这 里 ， 我 们 用 一 个 Regex 对 象 表示 上 八 s+ (\d+)!, 将 其 保存 在 变量 R 中 。 获 得 regex HH 
之 后 ， 我 们 可 以 通过 Match (text) 方法 将 其 应 用 到 一 段 文本 ， 返 回 与 第 一 次 匹配 结果 相关 的 
信息 : 


Dim M as Match = R.Match({"May 16, 1998") 


iii 
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"\s+(\d+)" 





9-1; .NET 正则 表达 式 相关 对 象 模型 
Match 对 象 


Regex 对 象 的 Match (…) 方法 通过 创建 并 返回 Match 对 象 来 提供 匹配 信息 ,Match 对 象 有 多 
个 属性 ， 包 括 success (一 个 表示 匹配 是 否 成 功 的 Boolean 值 ) 和 value (如 果 匹 配 成 功 ， 
则 保存 实际 匹配 文本 的 副本 )。 稍 后 我 们 会 看 到 Match 的 所 有 属性 的 列表 。 


Match 对 象 返 回 的 细节 中 还 包括 捕获 型 括号 所 匹配 的 文本 。 前 面 Perl 的 例子 使 用 $1 保存 第 
一 组 捕获 型 括号 匹配 的 文本 。.NET 提供 了 两 种 办 法 : 如 果 要 取得 纯 文 本 ， 可 以 按照 索引 值 
访问 Match 对 象 的 Groups 属性 ， 例 如 Groups (1) .value， 它 等 价 于 Perl 的 $1 (请 注意 ， 
C# 中 使 用 的 是 Groups [1] .Value)。 另 一 个 办 法 是 使 用 Result 方法 ， 请 参考 第 429 页 。 
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前 一 段 中 的 Groups (1) 其实 是 对 Group 对 象 的 引用 ,后面 的 .value 引用 它 的 value 属性 (也 
就 是 此 分 组 对 应 的 文本 ) 。 每 一 组 捕获 型 括号 都 对 应 一 个 Group 对 象 ， 另 外 还 有 一 个 “虚拟 
分 组 (virtual group)”， 其 编号 为 0， 它 保存 全 局 匹配 的 信息 。 


因此 ，MatchObj.Value 和 MatchObj.Groups (0) .Value 是 等 价 的 一 一 都 是 全 局 匹配 的 文本 
的 副本 。 第 一 种 写法 更 加 简洁 方便 , 但 我 们 必须 知道 存在 编号 为 0 的 分 组 ， 因 为 MatchObj. 
Groups .Count (也 就 是 Match 关联 的 分 组 的 数目 ) BETE., WE s+ (\a+) ,能 够 匹配 成 
Th, MatchObj.Groups.Count 的 值 就 是 2 (标号 为 0 的 全 局 匹配 和 $1)。 


Capture 对 象 


Capture 对 象 的 使 用 并 不 频繁 ， 请 参考 第 437 页 的 介绍 。 


匹配 时 会 计算 出 所 有 结果 


把 正则 表达 式 应 用 到 字符 串 中 ， 得 到 一 个 Match 对 象 ， 此 时 所 有 的 结果 (匹配 的 位 置 ， 每 
个 捕获 分 组 匹配 的 内 容 等 ) 都 会 计算 出 来 ， 封 装 到 Match 对 象 中 。 访 问 Match 对 象 的 属性 
和 方法 ， 包 括 它 的 Group 对 象 (及 其 属性 和 方法 ) 只 是 取 回 已 经 计算 好 的 结果 。 


核心 对 象 详解 


Core Object Details 


概览 完毕 ， 来 看 细节 。 首 先 ， 我 们 来 看 如 何 创 建 Regex 对 象 ， 然 后 来 看 如 何 将 其 应 用 到 字 
FE, ÆR Match 对 象 ， 以 及 如 何 处 理 这 个 Match MRAIER Group HR. 


在 实践 中 ， 很 多 时 候 不 必 明 确 创建 Regex 对 象 ， 不 过 明确 创建 看 起 来 更 顺眼 ， 所 以 在 讲解 
核心 对 象 时 ， 每 次 都 会 创建 它们 。 稍 后 我 会 告诉 你 .NET 提供 的 简便 方法 。 


在 下 面 的 列表 中 ， 我 会 忽略 从 Object 类 继承 而 来 的 ， 很 少 用 到 的 方法 。 
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创建 Regex 对 象 


Creating Regex Objects 
Regex 的 构造 函数 并 不 复杂 。 它 可 以 接收 一 个 参数 (作为 正则 表达 式 的 字符 串 )， 或 者 是 两 


个 参数 (一 个 正则 表达 式 和 一 组 选项 )。 下 面 是 一 个 参数 的 例子 : 
Dim StripTrailWS = new Regex("\s+$") ' $#HAHE HSH 


它 只 是 创建 Regex， 做 好 应 用 前 的 准备 ， 而 没有 进行 任何 匹配 。 


下 面 是 使 用 两 个 参数 的 例子 : 

Dim GetSubject = new Regex("^subject: (.*)", RegexOptions.IgnoreCase) 
这 里 多 出 了 一 个 RegexOptions 选项 ， 不 过 可 以 用 OR 运算 符 连 接 多 个 选项 ， 例 如 : 

Dim GetSubject = new Regex("“subject: (.*)", _ 


RegexOptions.IgnoreCase OR RegexOptions.Multiline) 


捕获 异常 


如 果 正 则 表达 式 包 含 了 元 字符 的 非法 组 合 ， 就 会 抛 出 argumentException。 通 常 ， 如 果 用 
户 知道 所 使 用 的 正则 表达 式 能 够 正常 工作 , 就 不 需要 捕获 这 个 异常 , 不 过 如 果 使 用 程序 “之 
外 ”( 例 如 由 用 户 输入 ， 或 者 从 配置 文件 读 入 ) 的 正则 表达 式 ， 就 必须 捕获 这 个 异常 。 
Dim R As Regex 
Try 
R = New Regex (SearchRegex) 
Catch e As ArgumentException 
Console.WriteLine("*ERROR* bad regex: " & e.ToString) 
Exit Sub 
End Try 


显然 ， 根 据 情 况 的 不 同 ， 在 检测 到 异常 之 后 可 能 需要 不 同 的 处 理 : 你 可 能 需要 进行 其 他 的 
处 理 ， 而 不 仅仅 是 向 控制 台 输出 报错 信息 。 


Regex 选项 
在 创建 Regex 对 象 时 ， 可 以 使 用 下 面 的 选项 ， 
RegexOpt ions. IgnoreCase 
此 选项 表示 ， 在 应 用 正则 表达 式 时 ， 不 区 分 大 小 写 (7110), 


RegexOptions.IgnorePatternWhitespace 


此 选项 表示 ， 正 则 表达 式 应 该 按照 自由 格式 和 广 释 模式 (711) 来 解析 。 如 果 使 用 单 
纯 的 #'… 注 释 ， 请 确认 在 每 一 个 逻辑 行 的 末尾 都 有 换行 符 ， 否 则 第 一 处 注释 会 “注释 
掉 ” 之 后 的 整个 正则 表达 式 。 


iil 
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在 VB.NET 中 3 我 们 可 以 用 chr ( 10} 来 实现 ， 例如 ; 


Dim R as Regex = New Regex( _ 


"# 匹配 一 个 浮 点 数 ..， " & chr(10) & _ 
" \d+(?:\.\d*) ? E 开头 是 整数 部 分 .、. " & chr(10) & _ 
" | # AB... " & chr(10) & _ 
" \.\d+ # 开头 是 小 数 点 "，_ 


RegexOptions.IgnorePatternWhitespace) 


HUBER, VB.NET 提供 了 更 简便 的 '(?#…) ,注释 : 


Dim R as Regex = New Regex( _ 


" (3?# 匹 配 一 个 浮 点 数 ... )* & _ 
" \d+(?:\.\d*)? {?# 开 头 是 整数 部 分 ... ja k 
aa | (?# 或 者 ... ) ” & 

" \.\a+ (247 KAP RE js 


RegexOptions.IgnorePatternWhitespace) 
RegexOptions.Multiline 
此 选项 表示 ， 正 则 表达 式 在 应 用 时 应 采用 增强 的 行销 点 模式 (9112), HAE, | 
Al's; 能够 匹配 字符 串 内 部 的 换行 符 ， 而 不 仅仅 是 匹配 整个 字符 串 的 开头 和 结尾 。 


RegexOptions.Singleline 


此 选项 表示 ， 正 则 表达 式 使 用 点 号 通 配 模式 (111)。 此 时 点 号 能 够 匹配 任意 字符 ， 
也 包括 换行 符 。 


RegexOptions.ExplicitCapture 


此 选项 表示 ,普通 括号 '(…) 1, 在 正常 情况 下 是 捕获 型 括号 ， 但 此 时 不 捕获 文本 ， 而 是 
与 '(?:…), 一 样 , 只 分 组 , 不 捕获 。 此 时 只 有 命名 捕获 括号 '(?<name>…) ,能 够 捕获 文 
本 。 


如 果 使 用 了 命名 分 组 ， 又 希望 使 用 非 捕 获 型 括号 来 分 组 ， 就 可 以 使 用 正常 的 (…) H 
号 和 此 选项 ， 这 样 程序 看 起 来 更 清晰 。 


RegexOptions.RightToLeft 
此 选项 表示 ， 进 行 从 右 向 左 的 匹配 (7411). 
RegexOptions.Compiled 


此 选项 表示 ， 正 则 表达 式 应 该 在 实际 应 用 时 被 编译 ， 成 为 高 度 优 化 的 格式 ， 这 样 通常 
会 大 大 提高 匹配 速度 。 不 过 这 样 会 增加 第 一 次 使 用 时 的 编译 时 间 ， 以 及 程序 执行 期 间 
的 内 存 占用 。 


如 果 正 则 表达 式 只 需要 应 用 一 次 ,或 者 应 用 并 不 是 很 频繁 ,就 没 必要 使 用 Regex Options. 
Compiled， 因 为 即使 这 个 Regex 对 象 已 经 被 回收 ， 多 占 的 内 存 也 不 会 释放 。 不 过 如 果 
正则 表达 式 在 对 时 间 要 求 很 高 的 场合 应 用 ， 这 个 选项 可 能 非常 有 价值 。 
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在 第 237 页 的 例子 中 ， 使 用 这 个 选项 减少 了 大 约 一 半 的 测试 时 间 。 还 可 以 参考 关于 编 
译 到 装配 件 (assembly) 的 讨论 (7434). 


RegexOpt ions.ECMAScript 


此 选项 表示 ， 正 则 表达 式 应 该 按照 EcmaScript (7412) 兼容 方式 来 解析 。 如 果 不 清 
楚 EcMAScript， 或 者 不 需要 兼容 它 ， 可 以 直接 忽略 。 


RegexOptions.None 


它 表示 “没有 额外 的 选项 ”， 在 初始 化 RegexOptions 变量 时 ， 如 果 需 要 指定 选项 ， 可 
以 使 用 它 。 也 可 以 用 OR 来 连接 其 他 希望 使 用 的 选项 。 


使 用 Regex 对 象 


Using Regex Objects 


在 没有 实际 应 用 之 前 ，Regex 是 没有 意义 的 ， 下 面 的 程序 示范 了 实际 的 应 用 : 


RegexObj .IsMatch (target) Return type: Boolean 
RegexObj .IsMatch(target, offset) 


IsMatch 方法 把 目标 正则 表达 式 应 用 到 目标 字符 串 ， 返 回 一 个 Boolean 值 ， 表 示 匹 配 尝试 
是 否 成 功 ， 这 里 有 个 例子 : 
Dim R as RegexObj = New Regex("*\s*$") 


nse 


If R.isMatch{(Line) Then 
' 如 果 行 为 空 ... 


Endif 
如 果 提 供 了 offset (一 个 整数 )， 则 第 一 次 尝试 会 从 对 应 的 偏 移 值 开始 。 


RegexObj.Match (target) Return type: Match object 
RegexObj.Match (target, offset) 
RegexObj.Match (target, offset, maxlength) 


Match 方法 把 正则 表达 式 应 用 到 目标 字符 串 中 ， 返 回 一 个 match 对 象 。 通 过 这 个 Match 对 
象 可 以 查询 匹配 结果 的 信息 (是否 匹配 成 功 , 捕获 的 文本 等 等 ), 初始 化 此 正则 表达 式 的 “下 
一 次 ”匹配 。Match 对 象 的 细节 见 第 427 页 。 


如 果 提 供 了 offset (一 个 整数 )， 则 第 一 次 尝试 会 从 对 应 的 偏 移 值 开始 。 


如 果 提 供 了 maxiength 参数 ， 会 进行 特殊 模式 的 匹配 ， 从 offset 开始 的 字符 开始 计算 ， 正 则 
引擎 会 把 maxlength 长 度 的 文本 当 作 整 个 目标 字符 串 , 假设 此 范围 之 外 的 字符 都 不 存在 ， 所 
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以 此 时 “能 够 匹配 原来 的 目标 字符 串 中 的 offset 位 置 ,$, 能 够 匹配 之 后 maxlength 个 字符 的 
位 置 。 同 样 ， 环 视 结构 不 能 “感觉 到 ”此 范围 之 外 的 字符 。 这 与 提供 offset 有 很 大 不 同 ， 如 
果 只 提供 了 o 太 et， 受 影响 的 只 是 传动 装置 开始 应 用 正则 表达 式 的 位 置 一 一 正则 引擎 仍然 能 
够 “看 到 ”完整 的 目标 字符 串 。 


下 面 表 格 中 的 例子 比较 了 offset 和 maxlength 的 意义 : 


Z Tias v> à p 后 ark. = Az KĀ 
pree a a ee TEE. 
` yy 机 a ee 
” Pa et ee eed koe hae goa 
l 站 F é 4 







- 


- 7 + , s “Ff 1 
<-> r ~ fy. 
Ne ra E ee ‘ (pines F 
x. Ave at 


16, 
ra 


RegexObj.Match("May 16,1998") 失败 
RegexObj .Match("May 16,1998", 9) 失败 


RegexObj.Match("May 16,1998", 9, 2) mae ‘99’ | 匹配 ‘99’ 


RegexObj .Matches (target) Return type: MatchCollection 
RegexObj .Matches (target, offset) 


Matches 方法 类 似 Match 方法 ， 只 是 Matches 方法 返回 一 组 Match 对 象 ， 代 表 目 标 字 符 串 
中 的 所 有 匹配 结果 ， 而 不 是 第 一 次 的 匹配 结果 。 返 回 的 对 象 为 atchcollection。 


Dim R as New Regex("\w+") 
Dim Target as String = "a few words" 


下 面 的 程序 : 


Dim BunchOfMatches as MatchCollection = R.Matches (Target) 
Dim I as Integer 
For I = 0 to BunchOfMatches.Count - 1 

Dim MatchObj as Match = BunchOfMatches.Item(I) 


Console.WriteLine("Match: " & MatchObj.Value) 
Next 


运行 结果 是 : 


Match: a 
Match: few 
Match: words 


下 面 的 程序 输出 同样 的 结果 ， 它 说 明 ，Matchcollection 对 象 可 以 一 次 分 配 整 个 Match- 
Collection。 
Dim MatchObj as Match 


For Each MatchObj in R.Matches (Target) 


Console.WriteLine("Match: " & MatchObj.Value) 
Next 
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作为 比较 ， 下 面 的 代码 也 可 以 达到 同样 的 效果 ， 使 用 Match (而 不 是 Matches) 方法 : 


Dim MatchObj as Match = R.Match(Target) 

While MatchObj.Success 
Console.WriteLine("Match: " & MatchObj.Value) 
MatchObj = MatchObj.NextMatch() 

End While 


RegexObj.Replace (target, replacement) Return type: String 
RegexObj.Replace (target, replacement, count) 
RegexObj.Replace (target, replacement, count, offset) 


Replace 方法 会 在 目标 字符 串 中 进行 查找 -替换 ， 返 回 (有 可 能 已 经 变化 的 ) 字符 串 副本 。 它 
应 用 的 是 Regex 对 象 的 正则 表达 式 ， 返 回 的 不 是 Match 对 象 ， 而 是 替换 的 结果 。 匹 配 的 文 
本 被 什么 内 容 替 换 ， 取 决 于 replacement 参数 。replacement 参数 可 以 重 载 : 它 可 以 是 AF 
符 串 ， 也 可 以 是 MatchEvaluator 委托 (delegate)。 如 果 replacement 是 一 个 字符 串 ， 它 会 
按照 下 一 页 补充 内 容 的 说 明 进 行 处 理 。 例 如 ， 

Dim R_CapWord as New Regex("\b[A-Z] \w*") 

Text = R_CapWord.Replace(Text, "<B>$0</B>") 


把 每 一 个 大 写 单词 两 边 加 上 <B>…</B>。 


如 果 设 置 了 count, 就 只 会 进行 count 次 替换 (默认 情况 是 进行 所 有 的 替换 )。 如 果 只 希望 替 
换 第 一 次 匹配 ， 可 以 将 count 设置 为 1。 如 果 我 们 知道 只 会 有 一 次 匹配 ， 把 count 明确 设置 
为 1 的 效率 会 更 高 ， 因 为 不 需要 对 字符 串 的 其 他 部 分 进行 查找 和 处 理 。 把 count 设置 为 -1 
表示 “所 有 匹配 都 必须 替换 ”( 它 等 价 于 没有 设置 count)。 


如 果 设 置 了 offset (一 个 整数 )， 则 应 用 正则 表达 式 时 ， 目 标 字符 串 中 对 应 数目 的 字符 会 被 
忽略 。 这 些 忽 赂 的 字符 会 直接 被 复制 到 结果 中 。 
例如 ， 这 段 代 码 会 去 掉 多 余 的 空白 字符 (也 就 是 将 连续 的 多 个 空白 字符 替换 为 单个 空格 ) : 


Dim AnyWS as New Regex("\s+") 


Target = AnyWS.Replace(Target, " ") 
“some……random……spacing” 被 替换 为 “some'randomspacing"。 下 面 代码 的 结果 相 
同 ， 只 是 它 会 保留 行 开头 任意 数目 的 空白 字符 。 


Dim AnyWS as New Regex("\s+") 
Dim LeadingWS as New Regex("*\s+") 


Wes 


Target = AnyWS.Replace(Target, " ", -1, LeadingWS.Match( Target) .Length) 
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它 会 把 “………some*…random…*…spacing” 转 化 为 “…*some*random*spacing' ， 在 查找 和 村 
换 时 ， 它 使 用 Leadingws 匹配 文本 的 长 度 作为 偏 移 值 (就 是 要 跳 过 的 字符 数目 ) 。 这 里 用 到 
了 Match 对 象 的 简便 特性 ， 即 LeadingWs .Match(Target) 的 Length 属性 (即便 失败 也 没 
问题 ， 此 时 Length 的 值 为 0， 也 就 是 说 我 们 需要 对 整个 目标 字符 串 应 用 anyws ) 。 


特殊 的 Replacement 处 理 


Regex.Replace 方法 和 Match.Result 方法 都 可 以 接收 能 够 进行 特殊 处 理 的 
replacement 字符 事 。 下 面 的 字符 序列 会 被 匹配 的 文本 所 替换 : 


eA 
me e aa 
i t y 


整个 表达 式 匹配 的 文本 (等 于 $0) 
和 对 应 编号 的 捕获 分 组 匹配 的 文本 
$ {name)} 对 应 命名 捕获 分 组 匹配 的 文本 

$' 目标 字符 事 中 匹配 文本 之 前 的 文本 


$ 目标 字符 事 中 匹配 文本 之 后 的 文本 

$$ 单个 “$ ”字符 

$_ 整个 原始 目标 字符 事 的 副本 

$+ 见 说 明 

目前 ，$+ 几 乎 是 没有 用 的 。 它 源 自 Perl 中 的 $+ 变量 ， 即 实际 参与 匹配 的 捕获 型 括号 中 
编号 最 大 的 那个 (第 202 页 有 一 个 例子 ) 。 而 .NET 的 replacement 字符 事 中 的 $+ 只 是 引 
用 正则 表达 式 中 最 靠 后 的 那个 捕获 型 括号 匹配 的 文本 。 因 为 捕获 型 括号 会 重新 编号 一 
一 在 使 用 命名 型 捕获 时 ， 会 自动 进行 这 种 操作 (只 409) ， 所 以 它 基本 没有 用 。 

除了 上 面 的 情况 之 外 ， 任 何 情况 下 在 replacement 字符 囊 中 使 用 “$” 都 完全 没 问题 。 





使 用 replacement 委托 


replacement 参数 不 只 能 用 简单 字符 串 ， 还 可 以 是 委托 (delegate， 简 单 说 就 是 函数 指针 )。 
代理 函数 在 每 次 匹配 之 后 调用 ， 生 成 作为 replacement 的 文本 。 因 为 这 个 函数 能 够 进行 我 们 
需要 的 任何 处 理 ， 这 种 查找 替换 的 机 制 功能 非常 强大 。 


委托 的 类 型 是 MatchEvaluator， 每 次 匹配 都 会 调用 。 它 所 引用 的 函数 必须 接受 Match 对 
象 ， 进 行 你 所 需要 的 任何 处 理 ， 返 回 作为 replacement 的 文本 。 
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做 个 比较 ， 下 面 两 段 程序 输出 同样 的 结果 : 


Target = R.Replace(Target, "<<$&>>") ) 


Function MatchFunc(ByVal M as Match) as String 
return M.Result ("<<§&>>") 
End Function 
Dim Evaluator as MatchEvaluator = New MatchEvaluator (AddressOf MatchFunc) 


Target = R.Replace(Target, Evaluator) 


两 段 程 序 都 用 <<…>> 标 注 匹 配 的 文本 。 使 用 委托 的 好 处 在 于 ， 在 计算 replacement 时 我 们 可 
以 进行 任意 复杂 的 操作 。 下 面 的 例子 把 摄氏 温度 转换 为 华氏 温度 : 
Function MatchFunc(ByVal M as Match) as String 
' 从 $1 获得 温度 数值 ， 转 换 为 华氏 温度 


Dim Celsius as Double = Double. Parse(M.Groups(1).Value) 
Dim Fahrenheit as Double = Celsius * 9/5 + 32 
Return Fahrenheit & "F" :添加 "F"， 然 后 返回 

End Function 


Dim Evaluator as MatchEvaluator = New MatchEvaluator (AddressOf MatchFunc} 


semos 


Dim R_Temp as Regex = New Regex("(\d+)C\b", RegexOptions.IgnoreCase) 
Target = R_Temp.Replace(Target, Evaluator) 


如 果 目 标 字 符 串 中 包含 “Temp is 37c.’， 它 会 被 替换 为 “Temp is 98.6F.’, 


RegexObj.Split (target) Return type: array of String 
RegexObj.Split (target, count) 
RegexObj.Split (target, count, offset) 


Split 方法 将 目标 正则 表达 式 应 用 于 目标 字符 串 ， 返 回 由 各 匹配 分 隔 的 字符 串 数 组 。 如 下 
面 这 个 例子 所 示 : 

Dim R as New Regex("\.") 

Dim Parts as String() = R.Split("209.204.146.22") 
R.Split 返回 包含 四 个 字符 串 的 数组 (209°, ‘204°, "146” 和 “22 ) ， 它 们 由 疏 .在 目 
标 字 符 串 中 的 三 次 匹配 来 分 隔 。 


如 果 提 供 了 count 参数 ， 则 至 多 返回 count 个 字符 串 〈 除 非 使 用 了 捕获 型 括号 ， 一 会 儿 会 说 
到 这 个 问题 )。 如 果 没 有 提供 count, split 返回 所 有 匹配 分 隔 的 字符 串 。 提 供 count 的 意思 
是 ， 正 则 表达 式 可 能 在 找到 最 终 匹 配 之 前 停止 应 用 ， 若 果真 如 此 ， 数 组 中 最 后 的 元 素 就 是 
目标 字符 串 中 余下 的 部 分 。 


Dim R as New Regex("\.") 
Dim Parts as String() = R.Split("209.204.146.22", 2) 


Rt, Parts GAAS EA, ‘209° FF ‘204.146.22’, 
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如 果 设 置 了 offset (一 个 整数 )， 则 正则 表达 式 的 匹配 尝试 从 对 应 编号 的 字符 开始 。 前 面 的 
offset 个 字符 会 作为 数组 的 第 一 个 元 素 返回 〈 如 果 设 置 了 Regexoptions .RightToLefc， 就 
会 作为 最 后 一 个 元 素 )。 


在 Split 中 使 用 捕获 型 括号 


如 果 出 现 了 任何 形式 的 捕获 型 括号 ， 数 组 中 通常 会 包含 额外 的 捕获 文本 (也 有 些 情况 下 根 
本 不 会 包含 ) 。 来 看 个 简单 的 例子 ， 要 拆 分 字符 串 “2006-12-31” 或 是 “04/12/2007"， 你 
可 能 会 使 用 [-/]): 


Dim R as New Regex("[-/]") 

Dim Parts as String() = R.Split (MyDate) 
结果 包含 3 个 元 素 ( 均 为 字符 串 )。 不 过 ， 使 用 捕获 型 括号 的 正则 表达 式 "([-/,]),;,， 则 会 
ee 如 果 MyDate MA ‘2006-12-31’, X 5 PITCH *2006’. ‘-', ‘12°, 


Peng o 多 出 来 的 “ ”是 每 次 捕获 的 $1。 


如 果 有 多 组 捕获 型 括号 ， 它 们 会 按照 编号 排序 (也 就 是 说 ， 所 有 的 命名 捕获 跟随 在 未 命名 
捕获 之 后 了 409)。 


只 要 实际 参与 了 匹配 捕获 型 括号 的 捕获 型 括号 ， 都 会 包含 在 split 的 结果 中 。 不 过 ， 目 前 
的 .NET 有 一 个 bug， 即 如 果 某 组 捕获 型 括号 没有 参与 匹配 ， 它 和 所 有 编号 更 靠 后 的 捕获 型 
括号 都 不 会 包含 在 返回 的 结果 中 。 


来 看 个 极端 点 的 例子 ， 如 果 需 要 以 左右 可 能 出 现 空白 字符 的 逗号 作为 分 隔 ， 而 且 空 白字 符 

必须 包含 在 返回 结果 中 。 用 '(\s+)?, (\s+)?1 分 隔 “his that’, BRPUR SFR ‘this’, 

‘e 和 “that 。 但 是 ， 如 果 目 标 字符 串 为 “this, "that"， 因 为 第 一 组 捕获 型 括号 

没有 参与 最 终 匹 配 ， 所 有 的 捕获 型 括号 都 不 包含 在 最 终结 果 中 ， 所 以 只 会 返回 两 个 字符 串 

‘this” 和 “that'。 无 法 预知 到 底 会 返回 多 少 字 符 串 ， 是 当前 版 本 的 .NET 的 一 个 重大 问 
题 。 


在 这 个 例子 中 , 我 们 可 以 使 用 (\s*) ,(\s*)1 绕 开 这 个 问题 (这 样 两 个 分 组 一 定 都 能 参与 匹 
配 )。 不 过 ， 更 复杂 的 表达 式 就 没 这 么 容易 改写 了 。 
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RegexObj .GetGroupNames ( ) 

RegexObj .GetGroupNumbers ( ) 

RegexObj .GroupNameFromNumber( number ) 
RegexObj .GroupNumberFromName( name ) 


这 几 个 方法 容许 用 户 查询 对 应 编号 (可 以 用 数字 ， 如 果 是 命名 捕获 ， 也 可 以 用 名 字 ) 的 捕 
获 型 分 组 的 信息 。 它 们 引用 的 不 是 特定 的 匹配 内 容 ， 只 是 正则 表达 式 中 存在 的 分 组 的 名 字 
和 编号 。 下 面 的 补充 内 容 说 明了 使 用 方法 。 

RegexObj .ToString() 


RegexObj .RightToLeft 
RegexObj .Options 


这 几 个 方法 容许 用 户 查 询 Regex MREF (而 不 是 将 此 对 象 应 用 到 字符 串 上 ) 的 信息 。 
TosString1() 方 法 返回 正则 表达 式 构 造 函 数 接收 的 字符 串 。RightToLeft 属性 返回 一 个 
Boolean 值 ， 表 明 它 是 否 启 用 了 RegexOptions.RightToLeft 选项 。options 属性 返回 与 
此 正则 表达 式 相 关 的 Regexoptions。 下 面 说 明了 各 个 选项 的 值 ， 把 对 应 选项 的 值 相 加 ， 就 
得 到 返回 结果 。 


0 None 16 Singleline 

1 IgnoreCase 32 IgnorePatternWhitespace 

2 Multiline 64 RightToLeft 

4 ExplicitCapture 256 ECMAScript 

8 Compiled 
这 里 没有 128， 因 为 它 用 于 微软 内 部 的 调试 ， 没 有 出 现在 最 终 产 品 中 。 
补充 内 容 给 出 了 这 些 方法 的 应 用 实例 。 


使 用 Match 对象 


Using Match Objects 


有 三 种 方法 创建 Match HR: Regex 的 Match HA, MAHAR Regex.Match ( 稍 后 介绍 ) 
和 Match 对 象 自己 的 NextMatch 方法 。 它 封装 某 个 正则 表达 式 的 单 次 应 用 的 所 有 相关 信息 。 
其 属性 和 方法 如 下 : 


MatchObj . Success 


返回 一 个 Boolean 值 ， 表 示 匹 配 是 否 成 功 。 如 果 不 成 功 ， 则 返回 一 个 静态 的 Match. Empty 
WR (7433), 


MatchObj .value 
MatchObj .Tostring() 


它 返回 实际 匹配 文本 的 副本 。 
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显示 Regex 对 象 的 信息 


这 段 代码 显示 了 Regex 对 象 RR 的 信息 


' 显示 关于 Regex KER 的 已 知 信息 
Console.WriteLine("Regex is: " & R.ToString()) 
Console.WriteLine("Options are: " & R.Options) 
If R.RightToLeft 

Console.WriteLine("Is Right-To-Left: True") 
Else 

Console.WriteLine("Is Right-To-Left: False") 
End If 


Dim S as String 
For Each S in R.GetGroupNames () 
Console.WriteLine("Name """ & S & """ is Num #" & 
R.GroupNumberFromName (S$) ) 


Next 

Console.WriteLine("---") 

Dim I as Integer 

For Each I in R.GetGroupNumbers () 


Console.WriteLine("Num #" & I & " is Name """ & _ 
R.GroupNameFromNumber (I) & """") 
Next 


再 执行 一 次 ， 用 下 面 的 方法 创建 Regex at g. 
New Regex("*(\w+) ://([*/} +) (/\S*)") 
New Regex ("*(?<proto>\w+)://(?<host>[%*/]+) (?<page>/\S*)", 
RegexOptions.Compiled) 


得 到 下 面 的 结果 (为 适应 排版 ， 有 个 正则 表达 式 省 略 了 后 半 段 ) 


Regex is: *(\w+)://([*/]+)(/\S*) Regex is: “*(?<proto>\w+)://(?<host> .… 
Option are: 0 Option are: 8 

Is Right-To-Left: False Is Right-To-Left: False 

Name "0" is Num #0 Name "0" is Num #0 

Name "1" is Num #1 Name “proto" is Num #1 

Name "2" is Num #2 Name "host" is Num #2 

Name "3" is Num #3 Name "page" is Num #3 


Num #0 is Name "0" Num #0 is Name "0" 

Num #1 is Name "1" Num #1 is Name "proto" 
Num #2 is Name "2" Num #2 is Name "host" 
Num #3 is Name "3" Num #3 is Name "page" 





www.TopSage.com 


核心 对 象 详解 429 


MatchObj . Length 


返回 实际 匹配 文本 的 长 度 。 


MatchObj . Index 


返回 一 个 整数 ， 显 示 匹 配 文 本 在 目标 中 的 起 始 位 置 。 编 号 从 0 开始 ， 所 以 这 个 数字 表示 从 
目标 字符 串 的 开头 (最 左边 ) 到 匹配 文本 的 开头 〈 最 左边 ) 的 长 度 。 即 使 在 创建 Match 对 
象 时 设置 了 Regexoptions .RightToLeft， 回 值 也 不 会 变化 。 


MatchObj . Groups 


此 属性 是 一 个 GroupCollection 对 象 ， 其 中 封装 了 多 个 Group 对 象 。 它 是 一 个 普通 的 集合 
类 (collection)， 包 含 了 Count 和 Item 属性 ， 但 是 最 常用 的 办 法 还 是 按照 索引 值 访问 ， 肥 
出 对 应 的 Group HER. AN, M. Groups (3) 对 应 第 3 组 捕获 型 括号 ,M.Groups ("HostName") 
对 应 命名 捕获 “HostName” (正则 表达 式 中 的 (?<HostName>…) ))。 


在 C# 中 ， 使 用 M.Groups[3] 和 M.Groups["HostName"]。 


编号 为 0 的 分 组 表示 整个 正则 表达 式 匹 配 的 所 有 文本 。MatchObj.Groups (0) . Value 等 价 于 
MatchObji .Value。 


MatchObj .NextMatch () 


NextMatch() 方 法 将 正则 表达 式 应 用 于 目标 字符 串 ， 和 寻找 下 一 个 匹配 ， 返 回 新 的 Match 对 
象 。 


MatchObj . Result (string) 


string 是 一 个 特殊 的 序列 ， 按 照 第 424 页 补充 内 容 的 介绍 来 处 理 ， 返 回 结果 文本 。 这 里 有 个 
简单 例子 : 


Dim M as Match = Regex.Match(SomeString, "\w+") 
Console.WriteLine(M.Result ("The first word is ‘$&’")) 


下 面 的 程序 可 以 依次 匹配 内 容 左 侧 和 右 侧 文 本 的 副本 


M.Result ("$") ' 这 是 匹配 内 容 左 侧 的 文本 
M.Result ("$") ' 这 是 匹配 内 容 右 侧 的 文本 


调试 时 可 能 需要 显示 某 些 和 行 有 关 的 信息 : 


M.Result ("[$‘<S$&>$’]")) 


如 果 把 八 a+, 应 用 到 “ay 16, 1998’ 得 到 的 Match 对象， 返回 的 是 “May <16>, 1998’, 
这 清楚 地 体现 了 匹配 文本 。 
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MatchObj . Synchronized () 


它 返 回 一 个 新 的 ， 与 当前 Match 完全 一 样 的 Match 对 象 ， 只 是 它 适 合 于 多 线程 使 用 。 
MatchObj .capturee 


captures 属性 并 不 常用 ， 参 见 第 437 页 的 介绍 。 


使 用 Group 对 象 


Using Group Objects 

Group 对 象 包含 一 组 捕获 型 括号 (如 果 编 号 是 0， 就 表示 整个 匹配 ) 的 信息 。 其 属性 和 方法 
如 下 : 

GroupObji. Success 

它 返 回 一 个 Boolean É, 表明 此 分 组 是 否 参 与 了 匹配 。 并 不 是 所 有 的 分 组 都 必须 “参与 ”成 


功 的 全 局 匹配 。 如 果 (this) 1 (that), 能 够 成 功 匹 配 , 肯定 有 一 个 分 组 能 参与 匹配 ， 另 一 个 
不 能 。 第 139 页 的 脚注 中 有 另 一 个 例子 。 


GroupObj .Value 
GroupObj .To8tring() 


它们 都 返回 本 分 组 捕获 文本 的 副本 。 如 果 匹 配 不 成 功 ， 则 返回 空 字 符 串 。 
GroupObj . Length 
返回 本 分 组 捕获 文本 的 长 度 。 如 果 匹 配 不 成 功 ， 则 返回 0。 


GroupObj . Index 


返回 一 个 整数 ， 表 示 本 分 组 捕获 的 文本 在 目标 字符 串 中 的 位 置 。 编 号 从 0 开始 ， 所 以 它 就 
是 从 目标 字符 串 的 开头 (最 左边 ) 到 捕获 文本 的 开头 (最 左边 ) 的 长 度 (即使 在 创建 Match 
对 象 时 设置 了 Regexoptions .RightToLeft， 结 果 仍 然 不 变 )。 


GroupObj . Captures 


请 参考 第 437 页 Group 对 象 的 Capture 属性 。 


It 
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静态 “便捷 ”函数 


Static “Convenience” Functions 


在 第 413 页 的 “正则 表达 式 快 速 和 门 ” 中 已 经 看 到 ， 我 们 并 不 需要 每 次 都 显 式 地 创建 Regex 
对 象 。 我 们 可 以 通过 下 面 的 静态 函数 直接 使 用 正则 表达 式 : 

Regex.IsMatch(target, pattern) 

Regex.IsMatch(target, pattern, options) 


Regex.Match(target, pattern) 
Regex.Match(target, pattern, options) 


Regex.Matches(target, pattern) 
Regex.Matches(target, pattern, options) 


Regex.Replace(target, pattern, replacement) 
Regex.Replace(target, pattern, replacement, options) 


Regex.Split(target, pattern) 

Regex.Split(target, pattern, options) 
其 实 它们 不 过 是 包装 了 已 经 介绍 的 主要 的 Regex 构造 国 数 和 方法 而 已 。 它 们 会 临时 创建 一 
个 Regex 对 象 ， 用 它 来 调用 请 求 的 方法 ， 然 后 弃 用 这 个 对 象 (其 实 并 没有 弃 用 ， 稍 后 介绍 ) 
这 里 有 个 例子 : 

If Regex.IsMatch(Line, "*\s*$") 


soaps 


它 等 价 于 : 


Dim TemporaryRegex = New Regex("*\s*$") 
If TemporaryRegex.IsMatch (Line) 


nats 


或 者 ， 更 确切 地 说 是 : 

If New Regex("^\s*$").IsMatch{Line) 
使 用 这 些 便捷 函数 的 好 处 在 于 ， 代 码 因 此 更 清晰 易 懂 。 面 向 对 象 式 处 理 看 起 来 像 函 数 式 处 
理 (了 95)， 坏 处 在 于 每 次 调用 都 必须 重新 检查 pattern FHR, 


如 果 在 整个 程序 的 执行 过 程 中 ， 正 则 表达 式 只 用 到 1 次 ， 就 不 需要 考虑 便捷 函数 的 效率 问 
题 。 但 是 ， 如 果 需 要 应 用 多 次 (例如 在 循环 中 ， 或 者 是 频繁 调用 的 函数 中 )， 每 次 准备 正则 
表达 式 都 需要 代价 (241)。 创 建 Regex 对 象 ， 然 后 重复 使 用 的 主要 原因 之 一 就 是 ， 使 用 
便捷 函数 的 效率 太 低 。 不 过 ， 下 一 节 将 告诉 我 们 ，.NET 提供 了 一 种 很 好 的 解决 办 法 : FA 
面向 对 象 的 效率 和 范 数 式 处 理 的 便捷 。 
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正则 表达 式 缓存 


Regex Caching 


为 简单 的 正则 表达 式 构 建 并 管理 Regex 对 象 很 不 方便 , 所 以 .NET AYER HEH T AHRS 
方法 。 但 这 些 静态 方法 存在 效率 缺陷 ， 即 每 次 调用 都 需要 创建 临时 的 Regex HR, WHE, 
然后 弃 用 。 如 果 在 循环 中 需要 多 次 应 用 同样 的 正则 表达 式 ， 就 需要 进行 许多 不 必要 的 工作 。 


为 了 避免 重复 的 工作 ，.NET Framework 能 够 缓存 静态 方法 创建 的 临时 变量 。 第 6 章 已 经 大 
致 介绍 过 缓存 (244)， 简 单 地 说 ， 缓 存 的 意思 就 是 如 果 你 希望 在 静态 方法 中 使 用 “最 近 ” 
使 用 过 的 正则 表达 式 ， 此 方法 就 会 重用 之 前 创建 的 正则 对 象 ， 而 不 是 重新 创建 一 个 新 对 象 。 


“最 近 ” 的 默认 意义 是 缓存 15 个 正则 表达 式 。 如 果 循 环 中 使 用 的 正则 表达 式 超过 15 个 ， 
则 第 16 个 正则 表达 式 会 取代 第 1 个 ， 所 以 进入 下 一 轮 循环 时 ， 第 一 个 正则 表达 式 已 经 不 在 
缓存 中 ， 必 须 重 新 生成 。 


如 果 默 认 值 15 太 小 ， 可 以 这 样 调 整 ， 
Regex.CacheSize = 123 


如 果 希 望 禁用 缓存 ， 可 以 将 其 设置 为 0。 


支持 函数 


Support Functions 


除了 之 前 讨论 过 的 便捷 函数 ， 还 有 一 些 静态 的 支持 函数 ， 

Regex. Escape (String) 

Regex.Escape(…) 返 回 此 字符 串 的 副本 ， 其 中 的 元 字符 会 进行 转 义 。 这 样 处 理 的 字符 串 就 
能 够 作为 文字 字符 串 供 正则 表达 式 使 用 。 

例如 ， 如 果 用 户 的 输入 保存 在 字符 串 searchTerm 中 ， 我 们 可 以 这 样 构建 正则 表达 式 ; 


Dim UserRegex as Regex = New Regex("*" & Regex.Escape(SearchTerm) & "$", _ 
RegexOpt ions. IgnoreCase) 


这 样 ， 用 户 输入 的 元 字符 就 不 会 被 特殊 处 理 了 。 如 果 不 转 义 ， 假 设 用 户 输入 了 “:-) aR 


会 抛 出 ArgumentException 异常 (7419), 
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Regex. Unescape (string) 


这 个 函数 有 点 奇怪 ， 它 接收 一 个 字符 串 ， 返 回 此 字符 串 的 副本 ， 不 过 要 处 理 其 中 的 元 字符 ， 
去 掉 其 他 的 反 斜 线 。 如 果 输 入 的 是 、:\-\) ， 返 回 值 就 是 “:-) 。 


字符 缩 略 表示 法 也 会 被 解码 。 接 收 的 字符 串 中 的 “\n ”会 被 替换 为 换行 符 ,“\ul234 ”会 被 
替换 为 对 应 的 Unicode 字符 。 第 407 页 列 出 的 所 有 字符 缩 略 表示 法 都 会 被 处 理 。 


我 想象 不 出 Regex .Unescape 有 多 么 重要 的 价值 ， 不 过 了 解 转 义 规定 的 用 户 也 许 能 把 它 当 
EER VB 字符 串 的 通用 工具 。 


Match.Empty 


此 函数 返回 代表 匹配 失败 的 Match 对 象 。 它 的 用 处 可 能 在 于 ， 如 果 初 始 化 的 某 个 Match 对 
象 将 来 不 一 定 会 被 用 到 ， 但 又 必须 能 够 查询 。 这 里 有 个 简单 的 例子 : 


Dim SubMatch as Match = Match.Empty ' 初 始 化 一 个 Macch， 但 下 面 不 一 定 会 设 定 


sers.. 


Dim Line as String 
For Each Line in EmailHeaderLines 
' 如果 这 是 标题 ， 保 存 匹 配 的 信息 ... 
Dim ThisMatch as Match = Regex.Match(Line, "“Subject:\s*(.*)", _ 
RegexOptions. IgnoreCase) 
If ThisMatch.Success 
SubMatch = ThisMatch 
End If 


sesser 


nets 


If SubMatch.Success 
Console.WriteLine(SubMatch.Result ("The subject is: $1")) 
Else 
Console.WriteLine("No subject!") 
End If 
如 果 字 符 串 数组 EmailHeaderLines 没有 任何 行 (或 者 没有 Subject 47), 程序 中 的 循环 就 
不 会 设置 subMatch， 如 果 subMatch 没有 初始 化 ， 循 环 之 后 检查 subMatch 会 得 到 一 个 空 


引用 异常 。 这 种 情况 下 用 Match. Empty 来 初始 化 就 很 方便 。 


Regex.CompileToassembly(…) 


它 容 许 用 户 创造 一 个 装配 件 (assembly) ， 封 装 正则 表达 式 一 一 参见 下 一 节 。 


L 
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NET 高 级 话题 


Advanced .NET 





下 面 的 内 容 涉 及 某 些 尚未 介绍 过 的 特性 : 通过 正则 装配 件 (regex assemblies) 构建 正则 表达 
式 库 ， 使 用 NET 专属 的 特性 匹配 嵌 套 结构 ， 以 及 对 Capture 对 象 的 讲解 。 


正则 表达 式 装配 件 


Regex Assemblies 


NET 能 够 把 Regex 对 象 封装 到 装配 件 (assembly) 中 ， 在 构建 正则 表达 式 库 时 这 很 有 用 。 
一 页 的 补充 内 容 提 供 了 示例 。 


运行 补充 内 容 中 的 例子 ， 能 够 在 当前 工程 的 bin 代码 目录 下 创建 JfriedlsRegexLibrary. DLL, 
然后 我 们 可 以 通过 Visual Studio .NET 的 Project > Add Reference 将 其 加 入 , 在 其 他 工程 中 使 
用 这 个 装配 件 。 
要 使 用 装配 件 中 的 类 ， 首 先 必须 导入 : 

Imports jfriedl 


然后 就 可 以 像 其 他 任何 类 一 样 引用 它们 ， 例 如 : 


Dim FieldRegex as CSV.GetField = New CSV.GetField ' 生 成 新 的 regex 对 象 


www 


Dim FieldMatch as Match = FieldRegex.Match(Line) ' 应 用 到 字符 事 ... 
While FieldMatch.Success 
Dim Field as String 
If FieldMatch.Groups(1).Success 
Field = FieldMatch.Groups(" 性、 ) .Value 


Field = Regex.Replace(Field, """"*"" ，"""") :把 连 在 一 起 的 引号 替换 为 单个 引号 
Else 

Field = FieldMatch.Groups("UnquotedField") .Value 
End If 


Console.WriteLine("(" & Field & "]") 
' 现在 可 以 处 理 ' Field... 


FieldMatch = FieldMatch.NextMatch 
End While 


在 这 个 例子 中 ， 我 仅仅 从 jfriedl namespace 导入 ,但 也 可 以 很 简单 地 从 jfiedi.csv 
namespace 导入 ， 然 后 这 样 创建 Regex MR: 


Dim FieldRegex as GetField = New GetField ' 生 成 新 的 regex 对 象 


这 是 两 种 风格 。 
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通过 装配 件 构建 自己 的 正则 表达 式 库 


这 个 例子 构建 了 一 个 小 规模 的 正则 表达 式 库 。 完 整 的 程序 构建 了 一 个 装配 件 (DLL), 
其 中 和 包含 三 个 已 经 生成 的 Regex Hit HK: jfriedl.Mail.Subject, jfriedl.Mail. 
From fe jfried1.CSV.GetField, 


前 两 者 很 简单 ， 一 眼 就 能 明白 ， 最 后 那个 复杂 的 构造 函数 展示 了 构建 库 的 约定 
(promise) 。 请 注意 ， 这 里 不 需要 设 定 RegexOptions .Compiled，、 因 为 在 构造 装配 件 
时 已 经 隐 含 地 设 定 了 。 


关于 如 何 使 用 构建 好 的 装配 件 ， 请 参考 第 434 页 。 
Option Explicit On 
Option Strict On 


Imports System.Text.RegularExpressions 
Imports System.Reflection 


Module BuildMyLibrary 
Sub Main() 
′ 下面 调用 regexCompliationInfo 时 提供 了 pattern、regex 选项 、 类 内 部 的 名 称 、 
′ 以 及 一 个 Boolean 值 表明 类 是 否 public。 举 例 来 说 ， 要 使 用 第 一 个 类 ， 
“程序 必须 使 用 装配 件 中 "jfriedl .Mail.Subject" 作 为 Regex 的 构造 函数 。 
Dim RCInfo() as RegexCompilationInfo = { 
New RegexCompilationInfo ( 
"*“Subject:\s*(.*)", RegexOptions.IgnoreCase, 
"Subject", "“jfriedl.Mail", true), 
New RegexCompilationInfo ( 
"“From:\s*(.*)", RegexOptions.IgnoreCase, 
"From", “jfriedl.Mail", true), 
New RegexCompilationInfo ( 
"\G(2:“1,) 
"(?: 
(?# 或 者 是 双 引 号 字段 ... ) 
"" (FE 起 始 双 引号 ) 
(?<QuotedField> (?> [*""]+ | """" )* ) 
"n (2# 结束 双 引 号 ) 
(?# ... 或 者 ... ) 
| 
(?# ... 非 引号 / 非 过 号 文本 ... ) 
(?<UnquotedField> [*"",]*) 
idl aie 
RegexOptions.IgnorePatternWhitespace, 
"GetField", "jfriedl.cSv", true) 


RMD RM DM WM RM WM RK 


} 
' 现 在 进行 主要 的 处 理 ， 生 成 结果 . . . 
Dim AN as AssemblyName = new AssemblyName() 
AN.Name = "JfriedlsRegexLibrary" ‘DLL 文件 的 名 字 
AN.Version = New Version("1.0.0.0") 
Regex.CompileToAssembly (RCInfo，AN)' 构 建 完成 
End Sub 
End Module 
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也 可 以 不 进行 任何 导 和 人 ， 而 是 直接 使 用 : 
Dim FieldRegex as jfriedl.CSV.GetField = New jfriedl.CSV.GetField 


这 有 点 麻烦 ， 但 是 清楚 地 说 明了 对 象 的 出 处 。 同 样 ， 这 只 是 风格 的 问题 。 


CREAN 


Matching Nested Constructs 


微软 提供 了 一 种 创新 的 功能 ， 专 门 用 于 匹配 对 称 的 结构 (长 期 以 来 ， 正 则 表达 式 对 此 无 能 
为 力 ) 。 它 理解 起 来 并 不 容易 一 一 本 节 篇 幅 不 长 ， 但 请 注意 ， 其 中 的 内 容 分 量 不 少 。 


最 简单 的 办 法 就 是 用 一 个 例子 来 说 明 : 


Dim R As Regex = New Regex( " \( 
" (?> 

[^()]+ 

| 

\( (?<DEPTH>) 

| 

\) (?<-DEPTH>) 
}* 
(? (DEPTH) (?!)) 

" \) 

RegexOptions.IgqnorePatternWhitespace) 


它 匹 配 第 一 组 正确 配对 的 艇 套 括 号 ， 例 如 “before (nope (yes (here) okay) after’ 
中 用 下 画 线 标注 的 部 分 。 第 一 个 开 括 号 不 会 匹配 ， 因 为 它 没 有 对 应 的 闭 括号 。 


这 里 简要 说 明了 程序 的 工作 原理 : 


222828 3 s 3s z 3 
RRR RR Rw SR —K 





1. 每 匹配 一 个 (超过 正则 表达 式 开头 (的)“(",'(?<DEPTH>) ,会 把 正则 表达 式 保存 的 当 
ATE SRE EA MM 1。 


2. 每 匹配 一 个 “) ','(?<-DEPTH>) ,会 把 深度 减 1。 
3. '(2? (DEPTH) (2!) )) 确保 最 后 的 仆 ) | 匹配 时 ， 深 度 应 该 为 0。 


因为 引擎 的 回 澳 堆栈 保存 了 当前 匹配 成 功 分 组 的 信息 ， 这 个 办 法 没有 问题 。'(?<DEPTH>)， 
只 是 使 用 了 命名 捕获 的 '0) , 它 总 是 能 成 功 匹配 。 因为 它 紧 跟 在 (之 后 , 它 的 成 功 匹配 (此 
信息 会 保存 在 堆栈 中 ， 直 到 出 栈 为 止 ) 用 于 标记 开 括号 的 数目 。 


因此 ， 当 前 已 经 成 功 匹 配 的 “DEPTH” 分 组 总 数 就 保存 在 回 滴 堆 栈 中 。 我 们 希望 在 找到 闭 括 
号 之 后 减 去 它们 。.NET 独 有 的 5(?<-DEPTH>)) 结构， 会 从 堆栈 中 去 掉 最 近 和 的 “successful 
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DEPTH” 标 记 。 如 果 不 存 在 这 样 的 标记 ,'(?<-DEPTH>) | 就 会 报告 失败 ， 整 个 正则 表达 式 的 
匹配 宣告 失败 。 


最 后 的 '(? (DEPTH) (?!) ) 是 一 个 普通 的 条 件 判断 ， 如 果 “DEPTH” 分 组 匹配 成 功 它 会 应 用 
“(?!)J。 如 果 在 程序 运行 到 此 处 时 选择 应 用 此 分 支 , 就 表示 还 存在 未 匹配 的 开 括号 。 果 真如 
此 的 话 ， 我 们 就 需要 退出 匹配 (我们 不 希望 匹配 不 对 称 的 序列 ) 所 以 我 们 用 否定 型 顺序 环 
视 '(?1!) 来 做 检查 ， 确 保 匹 配 失 败 。 


看 到 了 吗 ? 这 就 是 .NET EMAAR MAKES HORE. 


Capture 对 象 


Capture Objects 


NET 的 对 象 模型 中 还 包括 Capture 对 象 ， 之 前 一 直 没 有 介绍 过 。 依 视角 的 不 同 ， 它 可 能 为 
匹配 结果 增加 了 新 的 观察 角度 ， 也 可 能 是 增加 把 结果 和 弄 得 更 糟 。 


Capture 对 象 几乎 等 价 于 Group 对 象 ， 因 为 它 表示 一 组 捕获 型 括号 匹配 的 文本 。 与 Group 
对 象 一 样 ， 它 提供 了 value (匹配 的 文本 )、Length (匹配 文本 的 长 度 )， 以 及 Index (pE 
配 文本 在 目标 字符 串 中 的 偏 移 值 ， 编 号 从 0 开始 ) 。 


Group 对 象 和 Capture 对 象 的 主要 差别 是 , 每 个 Group 对 象 都 包含 了 一 组 captures, 分 别 
对 应 到 匹配 过 程 中 各 分 组 的 未 确定 匹配 (intermediary match), 以 及 该 分 组 最 终 匹 配 的 文本 。 


看 下 面 这 个 例子 : 


Dim M as Match = Regex.Match("abcdefghijk", "“*(..)+") 


正则 表达 式 匹 配 了 5 组 (. .)J， 包 括 了 字符 串 中 的 绝 大 多 数字 符 ‘abcdefghijk’: 因为 加 
号 在 括号 外 面 , 加 号 控制 的 每 次 迭代 都 会 重新 捕获 , 这 个 捕获 型 括号 最 后 保存 的 是 “ij” (也 
就 是 说 ，M.Groups (1) .Value 等 于 “ij')。 相 反 ，M.Groups (1) 同样 包含 一 组 Capture， 
它们 对 应 到 "(. .), 的 匹配 过 程 : 


M.Groups (1) .Captures(0) .Value is ‘ab’ 
M.Groups(1).Captures(1).Value is ‘cd’ 
M.Groups(1).Captures(2).Value is ‘ef’ 
M.Groups(1).Captures(3).Value is ‘gh’ 
M.Groups(1).Captures(4).Value is ‘ij’ 
M.Groups(1).Captures.Count is 5. 
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你 也 许 会 注意 到 ， 最 后 匹配 的 “ij ”等 同 于 最 终 全 局 匹配 中 的 M.Groups (1) .Value。 看 起 
Æ, Group 的 value 就 是 本 分 组 最 终 匹 配 文本 的 简 记 法 。M.Groups (1) .Value #: 


M.Groups (1).Captures( M.Groups(1).Captures.Count - 1 ) .Value 
关于 Capture， 还 要 讲 几 点 : 


° M.Groups(1).Capture 是 一 个 capturecollection， 与 普通 的 集合 类 (collection) 
一 样 ， 它 包含 了 Items 和 count 属性 。 不 过 ， 通 常 大 家 都 不 会 使 用 这 两 个 属性 ， 而 是 
通过 索引 值 直 接 访 问 ， 例 如 M.Groups(1).Captures(3) (在 C# 中 是 M.Groups [1] . 


Captures [3] )。 
e Capture 对 象 没 有 success 方法 ， 如 果 需 要 ， 请 测试 Group 的 Success, 


° “到 现在 ， 我 们 已 经 看 到 ，capture HR croup 对 象 内 部 可 用 。Match 对 象 也 有 
Captures 属性 ， 尽 管 涌 出 并 不 大 。M.captures 可 以 直接 访问 编号 为 0 的 分 组 的 
Captures 属性 (也 就 是 说 M.captures 等 价 于 M.Groups (0) .Captures)。 因 为 编号 
为 0 的 分 组 表示 整个 匹配 ， 所 以 不 会 有 “遍历 ”匹配 的 和 迭代， 所 以 编号 为 0 的 捕获 集 
合 类 只 有 一 个 capture。 因 为 它们 包含 与 编号 为 0 的 匹配 同样 的 信息 ，M.capters 和 
M.Groups (0) .Captures 并 不 是 很 有 用 。 


-NET 的 Capture 对 象 是 一 种 创新 ， 但 是 因为 与 对 象 模型 “集成 过 度 (overly integrated)”, 
使 用 起 来 反而 更 复杂 ， 而 且 令 人 迷惑 。 在 仔细 参阅 了 .NET 的 文档 ， 并 真正 理解 了 这 些 对 象 
之 后 ， 我 感觉 这 种 做 法 有 利 也 有 册 。 一 方面 ， 我 乐于 看 到 这 种 创新 。 虽 然 它 的 用 法 并 不 会 
马上 显现 出 来 , 但 这 或 许 是 因为 一 直 以 来 我 都 习惯 于 用 传统 的 正则 表达 式 特 性 来 思考 问题 。 


另 一 方面 ， 在 匹配 过 程 中 的 额外 的 分 组 ， 匹 配 完成 之 后 把 它们 封装 到 一 个 对 象 中 ， 似 乎 降 
低 了 效率 ， 我 并 不 希望 降低 效率 ， 除 非 要 得 到 额外 的 信息 。 增 加 的 capture 分 组 在 大 多 数 
匹配 中 不 会 用 到 ， 但 是 照 目前 的 情况 来 看 ， 生 成 Match 对 象 时 会 构建 所 有 的 Group 和 
Capture H&R (以 及 它们 相关 的 GroupCollection ff CaptureCollection 对 象 )。 所 以 无 
论 是 否 需 要 ， 它 们 都 在 那里 ， 如 果 你 能 够 发 现 capture 对 象 的 使 用 价值 RAB wat. 


idl 
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20 世纪 90 年 代 末 期 Web 的 迅猛 发 展 导致 了 PHP 的 爆炸 性 流行 ， 并 一 直 持 续 至 今 。PHP 得 
以 流行 的 理由 之 一 是 ， 即 使 非 专业 人 员 ， 只 需要 稍 作 准 备 ， 就 能 使 用 PHP 的 基本 功能 。 除 
此 之 外 ，PHP 还 提供 了 颇 受 开发 老手 欢迎 的 众多 高 级 特性 和 国 数 。PHP 当然 能 够 支持 正则 
表达 式 ， 而 且 提 供 了 至 少 3 套 独 立 的 ， 不 相关 的 正则 引擎 。 


PHP 的 三 种 正则 引擎 是 “preg”"、“ereg” 和 “mb_ereg”。 本 书 介绍 的 是 preg 引擎 提供 的 函 

数 。 它 使 用 NFA 引擎， i 读 作 
es OVO 

与 之 前 各 章 的 联系 exe, RRL a 

绍 的 基础 知识 。 如 果 读 者 只 对 PHP 










i 道 ， 本 章 的 内 容 强烈 依赖 于 第 1 至 6 章 介 
河 能 会 直接 从 本 章 开 始 阅读 ， 但 我 还 是 希望 他 
MAHERAN (ERER TEA) AWENN: 第 1、2、3 章 介绍 了 与 正则 表达 
式 相关 的 基本 概念 、 特 性 和 技术 ， 第 绰 5) 6 者 介绍 光 些 理解 正则 表达 式 的 关键 知识 ， 
它们 可 以 直接 应 用 到 PHP 的 正则 表达 式 电 ,前 几 间 讲解 的 重要 概念 包括 NFA | ite UCA 


基本 原理 ， 匹 配 优先 特性 、 a ib NTa 


ete K TATAE RRi ， 和 第 3 章 从 第 114 页 到 第 
页 NT ie 正则 表达 式 的 详细 教科 书 。 
ay Wig Mt 
Boe ese ah OS AN 
SEA eee. y 
a oe ax 
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本 章 开始 简要 介绍 了 preg 引擎 的 历史 ， 然 后 介绍 它 的 正则 流派 。 接 下 来 的 几 节 详 细 考 察 了 
preg 函数 的 接口 ， 然 后 是 关于 preg 的 效率 问题 ， 最 后 是 扩展 示例 。 


preg 的 背景 和 历史 preg 这 个 名 字 来 自 接口 函数 名 的 前 组， 代表 “Perl 的 正则 表达 式 (Perl 
Regular Expressions)”, preg 引擎 的 创始 人 是 Andrei Zmievski ， 他 对 当时 作为 标准 的 ereg Æ 
件 的 诸多 香 肘 相当 不 满意 。(ereg 表示 “扩展 的 正则 表达 式 (extended regular expressions)”, 
它 能 兼容 POSIX 标准 ,“ 扩 展 ” 的 意思 是 不 仅仅 限于 一 个 最 简单 的 正则 流派 , 但 是 以 今天 的 
标准 来 看 ， 还 相当 简陋 )。 


Andrei 的 preg 套件 是 一 组 =PCRE ( 即 “Perl 兼容 的 正则 表达 式 ”Perl Compatible Regular 
Expressions) Ham E AAE Wee EF NFA 的 正则 表达 式 库 ， 完 整地 模拟 了 Perl 的 语 
法 和 语意 由 提供 订 _Aadrelt 想 要 的 能 力 . 


在 接触 PCRE( 忆 前 ，Andrei 先 阅 读 了 Perl 的 源 代 码 ， 以 决定 是 否 能 够 借用 到 PHP 当中 。 他 
显然 不 是 第 一 个 阅读 Pen 的 正则 表达 式 源 代码 的 人 ， 也 不 是 第 一 个 认识 到 代码 有 多 么 复杂 
RA. Perl 的 正则 表达 式 功能 强 ， 速 度 快 ， 源 代码 也 在 许多 年 间 经 过 了 许多 人 的 修改 ， 已 经 
超出 了 单个 开发 人 员 的 理解 能 力 。 


幸运 的 是 ， 剑 桥 大 学 的 Philip Hazel 同样 已 经 被 Perl 的 正则 表达 式 的 源 代 码 搞 得 头 昏 脑 胀 ， 
所 以 他 写 了 PCRE È (参见 第 91 页 )。 好 在 Philip 已 经 有 了 现成 的 可 供 模拟 的 语意 ,所 以 若 
干 年 后 ，Andrei 找到 了 这 套 编写 清晰 、 文 档 完备 、 效 率 出 众 的 库 ， 很 方便 就 能 将 其 绑 定 到 
PHP 中 。 


Perl 随 着 时 间 的 流逝 而 不 断 发 展 ，PCRE 也 是 这 样 ，PHP 亦 然 。 本 书 针 对 的 是 PHP Versions 
4.4.3 和 5.1.4， 这 两 者 都 兼容 PCRE Version6.6 ( 注 1)。 


如 果 你 不 熟悉 PHP 的 版 本 信息 ， 清 注意 4x 和 5 是 同时 维护 的 ， 而 5x 进行 了 大 规模 的 扩 
展 。 因 为 两 个 系列 是 分 开 维 护 和 发 布 的 , 很 可 能 某 个 Sx 的 版 本 所 用 的 PCRE 的 版 本 要 低 于 
更 晚 发 布 的 4x 版 本 。 


注 1: 在 写作 本 章 时 ， 我 研究 了 当时 可 用 的 PHP 和 PCRE 的 版 本 ,发现 了 一 些 bug, Hit AHH 
对 的 PHP 4.4.3 和 5.1.4 中 已 经 修正 了 这 些 问 题 。 在 早期 的 版 本 中 ， 本 章 的 某 些 例子 可 能 无 
法 正常 工作 。 


Iii 
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PHP ' s Regex Flavor 
表 10-1: PHP preg 的 正则 流派 


F115 (c) 


#7118 (c) 
7119 

7 120 (u) 

7 120 (c) 

7 121 (c) (u) 
#120 


7 129 
#129 
7130 
7133 
w133 


ea 


7 446 





aie 


\a [\b] \e \f \n \r \t \octal\xhex \x{hex} \cchar 


wr, 
+ 


字符 组 : pel [^…] (可 包含 集合 运算 符 了 125) 

几乎 任何 字符 : RB (根据 模式 的 不 同 ， 有 各 种 含义 ) 
Unicode 混合 序列 : \X 

字符 组 缩 略 表示 法 89: \w \d \s \W \D \S( 只 针对 8 位 字符 )” 
Unicode 属性 和 区 块 : \p{Prop} \P{Prop} 

单个 字 节 (可 能 有 危险 ) ©: \c 


行 /字符 事 起 始 位 置 : A \A 

行 /字符 事 结 束 位 置 ": $ \z \Z 

当前 匹配 的 起 始 位 置 : \G 

单词 分 界 符 : \b \B( 只 针对 8 位 字符 ) 

环视 结构 8，(?=…) (21e) (?<=…) (?<!…) 


















REPAR. (hodimo) SHARAR: oni Xd 





7446 模式 修饰 范围 : (?mods-mods:…) 

7 136 注释 : (?#…) (只 在 模式 修饰 符 x 下 有 效 ， 从 “#” 到 换行 符 或 表达 式 末尾 ) 
了 446 捕获 型 括号 : (…) \1 \2… 

F446 命名 捕获 : (?P<name>*…) (?P=name) 

F137 仅 分 组 的 括号 : (?:…) 

F139 固化 分 组 : (?>…) 

7139 多 选 结构 : | 

F475 递归 : (?R) (?num) (?P>name) 

#140 条 件 判 断 : (?ifthenlelse) “if? 部 分 可 以 是 环视 ，(num) 或 (name) 
F141 匹配 优先 量词 : * + ? {n} {n,} {x,y} 

2141 忽略 优先 量词 : *? +? ?? {mn}? {n,}? {x,y}? 

F142 占有 优先 量词 : *+ ++ ?+ {nj}+ {n,}+ {Xx,y}+ 

F 136 (c) 文字 ( 非 元 字符 ) 范围 : \Q…\BE 

(c) 一 一 可 用 于 字符 组 内 部 D- OLHA 

(u) Pte 5 RA A u tA 


(本 表 同 样 适用 于 PHP preg 函数 所 使 用 的 正则 表达 式 库 PCRE) 


AANE M I eee eee SS eee 
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前 页 的 表 10-1 简要 介绍 了 preg 引擎 的 正则 流派 。 下 面 是 补充 说 明 : 
@ 只 有 在 字符 组 内 部 ，\b 才 表 示 退 格 符 。 在 其 他 场合 ，\b 匹配 单词 分 界 符 (了 133)。 


十 进 制 转 义 只 能 使 用 两 到 三 位 八 位 数值 。 特 殊 的 一 位 数 \0, 序列 匹 配 空 字 节 (NUL 
byte). 


\xhex 容许 出 现 一 到 两 位 十 六 进 制 数字 , TD '\x {hex}: BAERS TMF. 请 注意 , 大 
于 \x{FF} 的 数值 只 能 与 模式 修饰 符 u 连 用 (了 447)。 如 果 没 有 模式 修饰 符 u, 大 于 \x{FF} 
的 值 会 导致 正则 表达 式 非 法 。 


© 即使 是 在 UTF-8 模式 下 (通过 模式 修饰 符 u), 单词 分 界 符 和 字符 组 简 记 法 ， 例 如 w, 
也 只 对 ASCI 字符 起 作用 。 如 果 需 要 处 理 所 有 的 Unicode 字符 ， 请 使 用 \pD， (7121) 
REE w, Mnp PERE VG, FA '\ pz) t nse 


© Unicode 支持 针对 Unicode Version 4.1.0, 
Unicode 字母 表 (7122) 的 支持 不 需要 任何 “Ts "或 者 “In "前缀 , Plan \p(cyrillichi, 


PHP 同时 支持 单字 母 或 双 字 母 Unicode 属性 ， 例 如 八 p{Lu)、\ptL})， 其 中 改 pLi 作为 
单字 母 属性 名 〈( 字 121) 。 而 不 支持 、\p{Letter} 之 类 的 长 名 称 。 


PHP 也 支持 特殊 的 \p{L&)， (7121), LAR '\ptany), (表示 任意 字符 )。 


© 在 默认 情况 下 ，preg 套件 的 正则 表达 式 是 以 字 节 为 单位 的 ， 所 以 "ci 默认 就 等 价 于 
‘(?s:.)5, As 修饰 的 点 号 。 不 过 ， 如 果 使 用 了 修饰 符 u， 则 preg 套件 就 会 以 UTF-8 
字母 为 单位 ， 也 就 是 说 ,一 个 字符 可 能 由 6 个 字 节 组 成 。 即 使 这 样 ，\cCi 仍然 匹配 单个 
字 节 。 请 参考 第 120 页 的 注意 事项 。 


© 仆 z 和 仆 2 都 能 够 匹配 字符 串 的 末尾 ， 而 仆 z, 同样 能 够 匹配 最 后 的 换行 符 。 


$1 的 意义 取决 于 模式 修饰 符 m 和 DD (7446): 如 果 没 有 设 定 任何 修饰 符 ，$ EF z 

(在 字符 串 结 尾 的 换行 符 ， 或 者 是 字符 串 结尾 )， 如 果 使 用 了 aa， 则 它 能 够 匹配 内 人 嵌 的 
换行 符 ， 如 果 使 用 了 模式 修饰 符 D， 它 能 够 匹配 、\z, (只 有 在 字符 串 的 结尾 )。 如 果 同 
时 设置 了 m 和 D， 则 忽略 D. 
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© 逆序 环视 中 使 用 的 子 表 达 式 只 能 匹配 固定 长 度 的 文本 ， 除 非 顶 层 多 选 分 支 容许 不 同 的 
固定 长 度 (7133), 


D 模式 修饰 符 x (自由 格式 和 注释 ) 只 能 识别 ASCI 的 空白 字符 , 不 能 识别 Unicode 中 的 
空白 字符 。 


Preg 函数 接口 


The Preg Function Interface 


PHP 正则 ?引擎 的 处 理 方式 完全 是 程序 式 的 (795), 包括 表 10-2 顶端 的 6 个 函数 , 表格 还 列 
举 了 4 个 有 用 的 函数 ， 将 在 本 章 后 面 提 到 。 


R 10-2: PHP Preg 函数 概览 


函 数 fis ee ese MRE She ce ee 
#7449 preg_match 测试 正则 表达 式 能 和 否 在 字符 事 中 找到 匹配 ,并 提取 数据 
#7453 preg_match_all 从 字符 事 中 提取 数据 
F458 preg_replace 在 字符 事 的 副本 中 替换 匹配 的 文本 
#463 preg_replace_callback | 对 字符 事 中 的 每 处 匹配 文本 调用 处 理 函 数 
7465 preg_split 将 字符 事 切 分 为 子 事 数 组 
#469 preg_grep 选 出 数组 中 能 /不 能 由 表达 式 匹 配 的 元 素 
7470 preg_quote 转 义 字符 事 中 的 正则 表达 式 元 字符 
kHOAENAAEDRESE AHA oT 查询 Aer TERN 

W SON T I ORN L, JITE es WaS, 
7454 reg_match 类 似 a 但 能 识别 出 为 rr TTT 
7472 preg_regex_to_pattern | 根据 正则 表达 式 字 符 事 生成 preg pattern 字符 囊 
7474 preg_pattern_error 检查 preg pattern 字符 事 的 语法 错误 
F415 preg_regex_error 检查 正则 表达 式 字 符 事 的 语法 错误 


每 个 函数 的 具体 功能 都 取决 于 参数 的 个 数 、 标 志 位 (flag)， 以 及 正则 表达 式 所 使 用 的 模式 
修饰 符 。 在 深入 细节 之 前 我 们 先 通过 几 个 例子 来 看 看 PHP 中 的 正则 表达 式 的 例子 和 处 理 方 
式 。 


/* 测试 HTML tag <table> tag */ 
if (preg match('/^<table\b/i', $tag)) 
print "tag is a table tag\n"; 


/* 测试 文本 是 否 为 整数 */ 
if (preg_match('/*-?\d+$/', Suser_input) ) 
print "user input is an integer\n"; 
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/* 从 字符 事 中 取出 HTML title */ 
if (preg match('{<title>(.*?)</title>}si', $html, Smatches) ) 
print "page title: $matches[(1]\n"; 


-T 


/* 将 字符 事 中 的 数值 作为 华氏 温度 ， 将 其 奉 损 为 摄氏 温度 */ 

$metric = preg_replace('/(-?\d+(?:\.\d+)?)/e’, /* pattern */ 
‘floor (($1-32)*5/9 + 0.5)', /* 替换 代码 */ 
$string); 


/* KER PP RAE OF HB RGR */ 


Svalues_array = preg_split('!\s*,\s*,!', Scomma_separated_values) ; 


最 后 的 程序 ， 如 果 输 入 “Larry, ‘Curly, Moe’, BAZATE: ‘Larry’, ‘curly’ 
Fil ‘Moe’, 


“pattern” $% 


“Pattern” Arguments 


所 有 preg 函数 的 第 一 个 参数 都 是 pattern， 正 则 表达 式 包 含 在 一 对 分 隔 符 之 内 ， 可 能 还 跟 有 
模式 修饰 符 。 在 上 面 的 第 一 个 例子 中 ，pattem 参数 是 “/<table\b/i’'， 也 就 是 包含 在 一 对 
RER (分 隔 符 ) 里 头 的 <table\b;， 然 后 是 模式 修饰 符 1 (不 区 分 大 小 写 的 匹配 ) 。 


PHP 单 引号 字符 串 


因为 正则 表达 式 很 有 可 能 包含 反 斜 线 ,， 所 以 在 以 字符 串 文 字 方式 提供 pattern 参数 时 ,最 好 
使 用 PHP 的 单 引 号 字符 串 。 第 3 章 介绍 了 PHP 的 字符 串 文字 (=103)， 简 单 地 说 ， 如 果 使 
用 单 引 号 字符 串 文 本 ， 正 则 表达 式 就 可 以 省 略 许多 类 外 的 转 义 。PHP 的 单 引号 字符 串 只 有 
两 个 元 序列 ,，“\'” 和 “\\"， 分 别 代 表单 引号 和 反 斜 线 。 


有 一 种 转 义 需要 特别 注意 ， 就 是 在 正则 表达 式 中 使 用 \, 匹配 一 个 反 斜 线 字符 。 在 单 引号 
字符 串 中 , BP's BMRA, 所 以 \\ 就 成 了 \\\\。 四 个 反 斜 线 才能 匹配 一 个 反 斜 线 
字符 ， 这 真神 奇 ! 


(473 页 有 反 斜 线 繁复 到 极端 的 例子 。) 


举 个 具体 的 例子 ， 用 正则 表达 式 匹配 Windows 系统 中 的 分 区 名 ， 例 如 “c:\”。 可 以 用 正则 
表达 式 “[a-z] :\\$:;， 表 示 为 单 引 号 字符 串 文字 就 是 “^[A-Z] :\\\\s'。 
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第 5 章 第 190 页 有 一 个 例子 , ^.*\\ ,作为 pattern 字符 串 时 应 该 写成 “ 改 .*\\\/"， 使 用 3 
RK. BERE, 我 找到 这 几 个 例子 : 

print '/*.*\/'; 输出 /*.*\/ 

print ‘'/*.*\\/'; 输出 /*.*\/ 

print vA WN 输出 /*.*\\/ 

print ‘“/*.*\\\\/'; 输出 /*.*\N/ 
头 两 个 例子 尽管 方式 不 同 ， 结 果 却 是 一 样 的 。 在 第 一 个 例子 中 ， 结 尾 的 “\/”' 对 于 单 引 号 
字符 串 文 字 并 不 是 特殊 文本 ， 所 以 它 就 等 于 字符 串 的 值 。 第 二 个 例子 中 ，“\\” 对 于 字符 申 
文字 来 说 有 特殊 含义 ， 所 以 输出 的 字符 串 中 出 现 单个 “\'。 它 与 后 面 的 字符 (RA) 放 在 
一 起 ， 得 到 与 第 一 个 例子 同样 的 仆 /" 。 同 样 的 道理 ， 第 三 个 和 第 四 个 例子 也 会 得 到 同样 的 
结果 。 


当然 ， 你 也 可 以 使 用 PHP 的 双 引 号 字符 串 文本 ， 但 是 它们 要 麻烦 许多 。 它 们 支持 许多 字符 
串 元 序列 ， 这 些 在 正则 表达 式 字符 串 中 都 必须 特殊 处 理 。 


分 隔 符 


preg 引擎 要 求 正则 表达 式 两 端 必须 有 分 隔 符 , 因为 设计 者 希望 它 看 起 来 更 像 Perl, 尤其 在 模 
式 修饰 符 的 使 用 方法 上 更 是 如 此 。 有 的 程序 员 觉 得 在 正则 表达 式 两 端 添 加 分 隔 符 简直 是 多 
此 一 举 ,但 是 无 论 好 还 是 不 好 ， 规 定 就 是 规定 (第 448 也 给 出 了 一 个 “不 好 ”的 原因 )。 


常见 的 做 法 是 使 用 斜 线 作为 分 隔 符 ， 不 过 我 们 还 可 以 用 除了 字母 、 数 字 、 反 斜 线 和 空白 字 
符 之 外 的 任何 ASCH 字符 做 分 隔 符 。 最 常见 的 是 一 对 斜 线 ， 但 两 个 “!” 和 “#” 也 很 常见 。 
如 果 第 一 个 分 隔 符 表示 “ 开 (opening)”: 

{ {< I 
对 应 的 “ 闭 ” 分 隔 符 就 是 : 

站 > 


如 果 使 用 这 样 “配对 ”的 分 隔 符 ,分 隔 符 就 可 能 风 套 ， 所 以 “((\a+))” 也 可 以 用 作 pattern 
字符 串 。 其 中 ， 外 面 的 括号 是 模式 字符 串 分 隔 符 ， 内 部 的 括号 属于 分 隔 符 之 内 的 正则 表达 
式 。 为 了 清晰 起 见 ， 我 会 避免 这 种 情况 ， 使 用 简单 易 懂 的 “/(\da+)/ "。 
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pattern 字符 串 内 部 可 以 出 现 转 义 的 分 隔 符 ， 所 以 “/<B>(.*?)<\/B>/i” 并 没有 错 ， 不 过 换 
一 组 分 隔 符 可 能 看 得 更 清楚 ， 例 如 “!<B>(.*?)</B>!i” 使 用 “!…! ”作为 分 隔 符 ， 而 
*{<B>(.*?)</B>}i’ 使 用 “{ 


模式 修饰 符 


在 结束 分 隔 符 之 后 可 以 跟随 多 种 模式 修饰 符 〈 用 PHP 的 术语 来 说 ， 叫 做 pattern modifier) , 
在 某 些 情况 下 ， 修 饰 符 也 可 以 出 现在 正则 表达 式 内 部 ， 修 饰 模式 的 某 些 性 质 。 我 们 已 经 在 
一 些 例 子 中 看 到 过 表示 不 区 分 大 小 写 的 模式 修饰 符 +。 下 面 简 要 介绍 模式 修饰 符 : 


修饰 符 Atha BH | 说 上 g REP > aini a TA x 

7110 ETTE 5 

7112 增强 的 行 锚 点 模式 

111 点 号 通 配 模式 

PLL 宽松 排列 和 注释 模式 

| =447 以 UTE-8 读 取 正则 表达 式 和 目标 字符 事 

7447 启用 PCRE“ 额 外 功能 (extra stuff)” 
© | 459 将 replacement 作为 PHP 代码 (只 用 于 preg_replace) 
ees 





7478 启用 PCRE 的 “study” 优 化 尝试 
三 个 很 少 用 到 


4A] RA 和 ?的 匹配 优先 含义 


F447 将 整个 匹配 尝试 锚 定 在 起 始 位 置 (译注 1) 
F447'$) 只 能 匹配 EOS， 而 不 是 EOS 之 前 的 换行 符 
(如 果 使 用 了 模式 修饰 符 m 则 不 会 这 样 ) 


表达 式 内 部 的 模式 修饰 符 在 正则 表达 式 内 部 ， 模 式 修饰 符 可 以 单独 出 现 ， 来 启用 或 停 用 某 
些 特性 (例如 用 '(?i) ,来 启用 不 区 分 大 小 写 的 匹配 ,用 '(?-i) ,来 停 用 了 135)。 此 时 ,它们 
的 作用 范围 持续 到 对 应 的 结束 括号 ， 如 果 不 存在 ， 就 持续 到 正则 表达 式 的 末尾 。 


他 们 也 可 以 用 作 模 式 修饰 范围 (了 135)， 例 如 '(?i:…) ,表示 对 此 括号 内 的 内 容 进 行 不 区 分 
大 小 写 的 匹配 ,'(?-sm:…) ,表示 在 此 范围 内 停 用 s 和 m 模式 。 


正则 表达 式 之 外 ， 结 束 分 隔 符 之 后 的 模式 修饰 符 可 以 以 任何 顺序 组 织 ， 下 例 中 的 “si” 表 
示 同 时 启用 不 区 分 大 小 写 和 点 号 通 配 模式 : 


if (preg_match('{<title>(.*?)</title>}si', $html, $captures)) 


J TRATT E 


译注 1: 不 启动 驱动 过 程 。 
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PHP 特有 的 修饰 符 列表 最 上 端的 4 个 模式 修饰 符 属 于 标准 修饰 符 ， 在 第 3 章 (7110) 已 
经 讨论 过 。 修 饰 符 e 只 能 在 preg_replace 中 使 用 ， 详 细 的 讨论 见 对 应 的 小 节 (7459), 


模式 修饰 符 u 告诉 preg 31%, LA UTF-8 编码 处 理 正则 表达 式 和 目标 字符 串 。 此 模式 修饰 符 
不 会 修改 数据 ， 只 是 更 改正 则 引擎 处 理 数 据 的 方式 。 默 认 (也 就 是 未 使 用 模式 修饰 符 u) 的 
情况 下 ，preg 引擎 认为 接收 的 数据 都 是 8 位 编码 的 (87)。 如 果 用 户 知道 数据 是 UTF-8 编 
码 的 ， 请 使 用 此 修饰 符 ， 否 则 请 不 要 使 用 。 在 UTF-8 编码 中 ， 非 ASCI 字符 以 多 个 字 节 来 
存储 ， 使 用 u 修饰 符 能 够 确保 多 个 字 节 会 被 作为 单个 字符 来 处 理 。 


模式 修饰 符 X 启用 PCRE 的 “额外 功能 (extra stuff)”， 目 前 它 只 有 一 个 效果 : 如 果 出 现 了 
无 法 识别 的 反 斜 线 序列 ， 就 报告 错误 。 例 如 ， 默 认 情 况 下 ，\x 在 PCRE 中 没有 特殊 意义 ， 
RE k (因为 这 不 是 一 个 已 知 的 元 序列 ,所 以 反 斜 线 会 被 忽略 ) 。 如 果 使 用 了 模式 修饰 


TX, PSR “unrecognized character follows \”, 


未 来 版 本 的 PHP 可 能 包含 更 高 版 本 的 PCRE， 其 中 当前 没有 特殊 意义 的 反 斜 线 组 合 可 能 被 
赋予 新 的 意义 ， 所 以 为 了 保持 未 来 的 兼容 性 (以 及 … 般 可 读 性 )， 最 好 是 不 要 转 义 不 需要 的 
字母 ， 除 非 它 们 现在 有 特殊 意义 。 从 这 个 意义 上 说 ， 模 式 修 饰 符 XX 意义 重大 ， 因 为 它 可 以 


模式 修饰 符 S 调用 PCRE 的 “study (研究 )” 特 性 ,预先 分 析 正 则 表达 式 ， 在 某 些 顺利 的 情 
WE, 在 尝试 匹配 时 速度 会 大 大 提升 。 本 章 中 关于 效率 的 内 容 将 对 此 有 介绍 ， 请 参考 第 478 
页 。 


剩 下 的 模式 修饰 符 实用 价值 不 大 ， 也 不 常用 : 


。 ”模式 修饰 符 A 把 匹配 锁定 在 第 一 次 尝试 的 位 置 ， 就 等 于 整个 正则 表达 式 以 、\G, 开 头 。 
如 果 用 第 4 章 的 汽车 的 类 比 ， 这 就 是 关闭 传动 机 构 的 “驱动 过 程 ”( 亚 148)。 


。 ”模式 修饰 符 D 会 把 每 个 SERA z (F112), 即 5 匹配 字符 串 的 末尾 , 而 不 是 字符 
串 之 内 的 换行 符 。 


。 ”模式 修饰 符 U 交换 元 字符 的 匹配 优先 含义 : * 和 “*? 交 换 ， + 和 +?) 交换， 等 等 。 我 
猜 这 个 模式 修饰 符 的 主要 作用 在 于 制造 混乱 ， 所 以 我 完全 不 推荐 使 用 它 。 


til 
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“Unknown Modifier” 错 误 


有 时 候 ， 手 头 程序 忽然 会 报告 “Unknown Modifier” 错 误 。 我 绞 尽 脑汁 希望 找到 问题 
所 在 ， 最 终 忧 然 大 悟 ， 原 来 自己 在 创建 模式 参数 时 忘 了 添加 分 隔 符 。 
例如 ， 我 可 能 希望 这 样 匹配 HTML tag: 

preg_match('<(\w+) ([*>]*)>', $html) 
我 的 本 意 是 ， ` <” 是 正则 表达 式 的 一 部 分 ， 但 preg match 认为 它 是 起 始 分 隔 竺 (我 
自己 忘 了 设 定 分 隔 符 ,这 还 能 怪 谁 呢 ? ) MA, RAR RE ‘<TR> +) >”, 
其 中 的 正则 表达 式 以 灰色 标注 ， 模 式 修饰 符 以 下 画 线 标注 。 


在 正则 表达 式 中 ，(\w+) (RAO, 但 是 在 发 现 并 报告 错误 之 前 , 正则 引擎 会 试 
图 将 ]*)> 解释 为 一 囊 模式 修饰 待 。 但 它们 全 都 不 是 合法 的 模式 修饰 符 ， 所 以 ， 当 
然 会 报告 错误 。 


Warning: Unknown modifier ']' 


显然 ， 我 需要 使 用 分 隔 符 : 
preg_match('/<(\w+)(.*?)>/', $html) 
除非 我 知道 这 里 的 modifier 指 的 是 PHP 的 pattern 修饰 罕 , 否 则 此 错误 报告 中 给 出 的 修 
饰 符 并 不 能 让 人 明白 ， 所 以 有 时 候 我 得 花 点 时 间 才 能 找到 问题 所 在 。 每 次 遇 到 这 样 的 
问题 ， 我 都 觉得 自己 很 傻 ， 但 幸运 的 是 ， 没 人 知道 我 会 犯 这 种 低级 的 错误 。 
幸好 ，PHP5 最 近 版 本 的 报错 信息 改 成 了 这 样 : 
Warning: preg_match(): Unknown modifier ']， 
因为 出 现 了 函数 名 ， 我 立刻 就 能 反应 过 来 。 不 过 ， 有 时 候 仍 然 需要 花 很 多 时 间 来 查找 
漏 写 分 隅 竺 的 问题 ， 因 为 不 是 每 次 都 会 报错 。 上 比如 下 面 这 段 程序 : 
preg_match('<(\w+) (.*?)>', $html) 
RERE TEOMA, 但 '(\w+) (.*?))1 仍 然 是 合法 的 正则 表达 式 。 唯 一 的 毛病 在 于 它 
不 能 匹配 我 期 望 的 结果 。 这 种 错误 不 易 察觉 ， 非 常 灯 手 。 
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Preg 函数 罗列 


The Preg Functions 


本 节 从 最 基本 的 “这 个 正则 表达 式 能 否 在 字符 串 中 找到 匹配 ”开始 ， 详 细 介绍 各 个 函数 。 


使 用 方法 


preg_match(pattern, subject[, matches[, flags [, offset]]}) 


参数 简介 


pattern ”分 隔 符 包围 起 来 的 正则 表达 式 ， 可 能 出 现 修饰 符 (7444). 

subject ”需要 搜索 的 目标 字符 串 。 

matches ” 非 强制 出 现 ， 用 来 接受 匹配 数据 。 

flags 非 强 制 出 现 ， 此 标志 位 会 影响 整个 函数 的 行为 。 这 里 只 容许 出 现 一 个 标志 位 ， 


PREG_OFFSET_CAPTURE (7452), 


offset  ě 非 强制 出 现 ， 从 0 开始 ， 表 示 匹 配 尝 试 开 始 的 位 置 (7453), 


返回 值 
如 果 找 到 匹配 ， 就 返回 trwe， 否 则 返回 false, 


讲解 
最 简单 的 用 法 是 : 


preg_match ($pattern, $subject) 


如 果 $pattern 在 $subject 中 能 找到 匹配 ， 就 会 返回 tue。 下 面 有 几 个 简单 的 例子 


if (Preg_match(' 八 . (jpe?glpnglgiflbmp)S/i'，Sur1)) { 
/* 图 片 的 URL */ 


if (preg_match('{*https?://}', Suri)) { 
/* URI 是 http 或 https */ 


if (preg_match('/\b MSIE \b/x', $_SERVER['HTTP_USER_AGENT'])) { 
/* 浏览 器 是 IE */ 
} 
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捕获 匹配 数据 


preg_match 的 第 3 个 参数 如 果 出 现 ， 则 会 用 来 保存 匹配 结果 的 信息 。 用 户 可 以 照 自己 的 意 
愿 使 用 任何 变量 ， 不 过 最 常用 的 名 字 是 Smatches。 在 本 书 中 ， 如 果 我 在 特定 的 例子 之 外 提 
到 $matches， 指 的 就 是 “preg_match 接收 的 第 3 FBR’. 


匹配 成 功 之 后 ，preg_match 返回 tue， 并 按 如 下 规则 设置 Smatches: 


Smatches [0] 是 正则 表达 式 匹配 的 所 有 文本 
Smatches [1] 是 第 1 组 桶 获 型 括号 桶 获 的 文本 
Smatches [2]} 是 第 2 组 捕获 型 括号 捕获 的 文本 


sesse 


如 果 使 用 了 命名 分 组 ，$matches 中 也 会 保存 对 应 的 元 素 (下 一 节 有 这 样 的 例子 )。 


第 5 章 中 (191) 曾 出 现 过 这 个 简单 的 例子 : 


/* 输入 完整 路 径 ， 分 离 出 文件 名 */ 
if (preg_match('{ / ([^/}]+} $}x', $WholePath, $matches)}) 
SFileName = $matches[1]; 


最 好 是 在 preg_match 返回 true 的 情况 下 用 $matches (随便 你 怎么 命名 ) 。 如 果 匹 配 不 成 功 ， 
会 返回 false， 或 者 错误 (例如 模式 错误 或 函数 标志 位 设置 错误 )。 有 的 错误 发 生 之 后 ， 
Smatches 是 空 数组 ,但 也 有 时候 它 的 值 不 会 变化 ， 所 以 我 们 不 能 认为 ，Smat ches 不 为 空 
就 表示 匹配 功 。 


下 面 这 个 例子 使 用 了 3 组 捕获 型 括号 ， 


/* 从 URL 中 提取 协议 、 主 机 名 和 问 口 号 */ 
if (preg_match('{*(https?):// ((*/:]+) (?: :(\d+) )? }x', $url, $matches)) 
{ 


Sproto = $matches[1]; 
$host = $matches[2]; 
Sport = $matches[3] ? $matches[3]) : ($proto == “http” ? 80 :443); 


print “Protocol: $proto\n"; 
print "Host : $host\n"; 
print "Port : $port\n"; 

} 


数组 结尾 “未 参与 匹配 ”的 元 素 会 被 忽略 


如 果 一 组 捕获 型 括号 没有 参与 最 终 匹 配 ， 它 会 在 对 应 的 Smatches 中 生成 一 个 空 字符 串 〈 注 
2), 需要 说 明 的 是 , Smatches 末 昆 的 空 字符 串 都 会 被 忽略 。 在 前 面 那 段 程 序 中 , 如 果 "\de)s 
25 TUM, smatches [3] 会 保存 一 个 数值 ， 否 则 ，s$matches [3] 根 本 就 不 会 存在 。 


注 2: 如 果 希 望 用 NULL 取代 空 字符 事 ， 请 参考 第 454 页 的 补充 内 容 。 
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命名 捕获 


如 果 我 们 用 命名 捕获 (7138) 重 写 之 前 的 例子 ， 正 则 表达 式 会 长 一 些 ， 不 过 代码 更 容易 阅 
读 ; 
/* 从 URL 中 提取 协议 、 主 机 名 和 问 口 号 */ 


if (preg_match('{*(?P<proto> https? ) :// 
(?P<host> [(*/:]+ ) 


(?: : (?P<port> \d+ ) )? }x', $url, $matches) ) 
{ 

Sproto = $matches['proto']; 

$host = $matches['host']); 

$port = $matches['port'] ? $matches['port'] : ($proto== "http" ?80 : 443); 
print “Protocol: $proto\n"; 

print "Host ; Shost\n"; 

print “Port : $port\n"; 


} 


命名 捕获 看 起 来 更 清晰 ， 这 样 我 们 不 需要 把 smatches 的 内 容 复制 给 各 个 变量 ， 就 能 直接 使 
用 变量 名 ， 而 不 是 smatches， 例 如 这 样 ， 


/* 从 URL 中 提取 协议 、 主 机 名 和 端口 号 */ 
if (preg_match('{*(?P<proto> https? ):// 
(?P<host> [*/:]+ ) 


(?: : (?P<port> \d+ ) )? }x', $url, $UrlInfo)) 
{ 
if (! $UrlInfo['port']) 
$UrlInfo['port') = ($Urlinfo['proto'] == "http" ? 80 : 443); 
echo "Protocol: ", $UrlInfo['proto']), "\n"; 
echo "Host : 1; SUrlinfof[{'hoat')], "\n"; 
echo "Port : ", $UrlInfo['port'], "\n"; 


} 


如 果 使 用 了 命名 捕获 ， 按 数字 编号 的 捕获 仍然 会 插 和 人 $matches。 例 如 ， 在 匹配 Surl ( 值 为 
‘http://regex.info’) 之 后 ， 之 前 例子 中 的 SurlInfo 包含 


array 
( 
0 => ‘http://regex.info', 
‘proto' = “REED, 
1 => ‘http’, 
‘host' => ‘regex.info', 
2 => '‘regex.info' 


) 


这 样 的 重复 有 点 浪费 ， 但 这 是 获得 命名 捕获 的 便捷 和 清晰 所 必须 付出 的 代价 。 为 清晰 起 见 ， 
我 不 推荐 同时 使 用 命名 和 数字 编号 来 访问 smatches 的 元 素 ， 当 然 用 Smatches [0] 表 示 全 局 


请 注意 ， 数 组 中 不 包括 编号 为 3 和 名 称 为 “port ”的 入 口 (entry) ， 因 为 这 一 组 捕获 型 括号 
没有 参与 到 最 终 匹 配 中 ， 而 且 处 于 最 后 (因此 会 被 忽略 了 450)。 
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还 要 提 一 点 , 尽管 现在 使 用 例如 (?P<2>…)) 之 类 的 数字 命名 并 不 会 出 错 , 但 这 种 做 法 并 不 
可 取 。PHP4 和 PHPS 在 处 理 非 正常 情况 时 会 有 所 区 别 ， 可 能 不 会 按照 个 人 的 意愿 发 展 ， 所 
以 最 好 还 是 不 要 使 用 数字 来 命名 捕获 分 组 。 


更 多 的 匹配 细节 : PREG_OFFSET_ CAPTURE 


如 果 设 置 了 preg_match 的 第 4 个 参数 flags, MAELA PREG_OFFSET_CAPTURE (这 也 是 
preg_match 目前 能 够 接受 的 唯一 标志 位 )， 则 $matches 的 每 个 元 素 不 再 是 普通 字符 串 ， 而 
是 由 两 个 元 素 构成 的 子 数组 ， 其 中 第 1 个 元 素 是 匹配 的 文本 ， 第 2 个 元 素 是 这 段 文本 在 目 
标 字符 串 中 的 偏 移 值 (如 果 没 有 参与 匹配 ， 则 为 -1)。 


偏 移 值 从 0 开始 ,表示 这 段 文本 相对 目标 字符 串 的 偏 移 值 ,即使 设置 了 第 5 个 参数 Sof fset， 
偏 移 值 的 计算 也 不 会 变化 。 它 们 通常 按照 字 节 来 计数 ， 即 使 使 用 了 模式 修饰 符 u 也 是 如 此 
(7447), 


来 看 个 从 tag 中 提取 HREF 属性 的 例子 。HTML 的 属性 值 两 边 可 能 是 双 引 号 、 单 引号 , 或 者 
干脆 没有 引号 ， 这 样 的 值 在 下 面 这 个 正则 表达 式 的 第 1 组 、 第 2 组 和 第 3 组 捕获 型 括号 中 
被 捕获 : 


preg_match('/href \s*=\s*(?: "([^"]*)" IN' CE*N° J *) AV TL CESNSN\ >]+) }/ix', 
Stag, 
Smatches, 
RPEG_OFFSET_CAPTURE) ; 


如 果 Stag 包含 ， 


<a name=bloglink href='http://regex.info/blog/' rel="nofollow"> 


匹配 成 功 之 后 ，$matches WARE: 


array 
{ 
/* 全 局 匹配 的 数据 */ 
0 => array ( 0 => "“href='http://regex.info/blog/'", 
1 => 17 Fy 
/* 第 1 组 括号 的 匹配 数据 */ 
1 => array { 0 => °* 
1 => -1 ), 
/* 第 2 组 括号 的 匹配 数据 */ 
2 => array { 0 => "http://regex.info/blog/", 
1 => 23 ) 
) 


Smatches[f01{0] 包 含 正则 表达 式 匹 配 的 所 有 文本 ，s$matches [0] [1] 表 示 匹 配 文本 在 目标 
字符 串 中 的 偏 移 值 ， 按 字 节 计数 。 
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为 了 清晰 起 见 ， 另 一 种 获得 $matches [0] [0] 的 办 法 是 : 
substr($tag, $matches[0][1], strlen($matches[0][0])); 


Smatches[1] [1] 是 -1， 表 示 第 1 组 捕获 括号 没有 参与 匹配 。 第 3 组 也 没有 参与 ,但 是 因为 
之 前 提 到 的 理由 (7450), 结尾 未 参与 匹配 的 捕获 括号 匹配 的 文本 不 会 包含 在 smatches H, 


offset 参数 


如 果 preg_match 中 设置 了 offset 参数 ， 引 擎 会 从 目标 字符 串 的 对 应 位 置 开 始 (如 果 offset 
是 负数 ， 则 从 字符 串 的 末尾 开始 倒数 ) 。 默 认 情况 下 ，offset 是 0 (也 就 是 说 ， 从 目标 字符 串 
的 开头 开始 ) 。 


请 注意 ，offset 是 按 字 节 计 数 的 ， 即 使 使 用 了 模式 修饰 符 u 也 是 这 样 。 如 果 设 置 不 正确 (A 
如 从 某 个 多 字 节 字符 的 “内 部 ”开始 ) 会 导致 匹配 失败 。 


即使 offset 不 等 于 0, PHP 也 不 会 把 这 个 位 置 标记 为 ,一 一 字符 串 的 起 始 位 置 , 它 只 表示 正 
则 引擎 开始 尝试 的 位 置 。 不 过 ， 逆 序 环视 倒是 可 以 检查 offset 左边 的 文本 。 








使 用 方法 
preg_match_all(pattern, subject, matches [, flags [, offset ]]) 


参数 简介 


pattern ”分 隔 符 包 围 起 来 的 正则 表达 式 ， 可 能 出 现 修饰 符 (444)。 
subject 需要 检索 的 目标 字符 串 。 
matches ”用 来 保存 匹配 数据 的 变量 (必须 出 现 )。 
flags 非 强制 出 现 ， 标 志 位 设 定 整个 函数 的 功能 : 
PREG_OFFSET_CAPTURE (=456) 
和 /或 任意 : 


PREG_PATTERN_ORDER (7455) 
PREG_SET_ORDER (7456) 


offset 非 强制 出 现 , 从 0 开始 ,表示 目标 字符 串 中 匹配 尝试 开始 的 位 置 (与 preg_match 
的 offset 参数 相等 453)。 


返回 值 
preg_match_all 返回 匹配 的 次 数 。 
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不 包含 任何 内 容 的 匹配 ， 还 是 无 法 匹配 


preg_match 返回 的 Smatches 中 ， 空 字符 事 表 示 对 应 的 括号 没有 篆 与 匹配 (当然 ， 数 
组 末尾 的 空 字符 事 会 被 忽略 )。 因 为 匹配 结果 也 可 能 是 空 字 特 事 , 我 希望 没有 大 与 匹配 
的 括号 捕获 的 文本 是 NULL, 


所 以 ,我 自己 编写 了 一 个 preg_match( 我 称 其 为 reg_match) ,首先 使 用 PREG_OFFSET_ 
CAPTURE 标志 位 来 获得 所 有 括号 内 的 自 表 达 式 匹配 结果 的 详细 信息 ， 然 后 根据 这 些 信 
息 在 Smat ches 中 将 对 应 的 值 设 为 NULL: 


function reg_match(S$regex, $subject, &$matches, Soffset = 0) 
{ 


$result = preg_match(Sregex, $subject, $matches, 
PREG_OFFSET_CAPTURE, Soffset); 


if ($result) { 
$f = create_function('&$xX', '$X = $X[1] < 0 ? NULL : $X[0]; '); 
array_walk($matches, $f); 
} 
return $result; 
} 


reg_match 的 结果 等 于 在 不 指定 任何 标志 位 的 情况 下 调用 preg_match, BA AF, 如 
有 果 某 组 括 号 漫 有 参与 匹配 ,在 preg_match 中 对 应 的 元 素 为 空 字 符 事 ,而 在 reg_macch 
中 变 成 了 NULL, 





讲解 


preg_match_all 类 似 于 preg_match, 只 是 在 找到 第 一 个 匹配 之 后 , 它 会 继续 搜索 字符 申 ， 
找到 其 他 的 匹配 。 每 个 匹配 都 会 创建 一 个 包含 匹配 数据 的 数组 ， 所 以 最 后 matches 变量 就 
是 一 个 二 维 数组 ， 其 中 的 每 个 子 数组 对 应 一 次 匹配 。 

这 里 有 个 简单 的 例子 : 


if (preg_match_all('/<title>/i', $html, $all_matches) > 1) 
print “whoa, document has more than one <title>!\n"; 


preg_match_all 要 求 必 须 出 现 第 3 个 参数 (也 就 是 用 来 收集 所 有 成 功 的 匹配 信息 的 变量 )。 
所 以 ， 这 个 例子 中 虽然 没有 用 到 Sal1l_matches， 但 仍然 必须 设置 这 个 变量 。 


收集 匹配 数据 


preg_match 和 preg_match_all 的 另 一 个 主要 区 别 是 第 3 个 参数 中 的 数据 。preg_match 
进行 至 多 一 次 匹配 ， 所 以 它 把 匹配 的 数据 存储 在 matches 变量 中 。 与 此 不 同 的 是 ，preg_ 


= 
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match_all 能 匹配 许多 次 ， 所 以 它 的 第 3 个 参数 保存 了 多 个 单 次 匹配 的 matches。 为 了 说 
明 这 种 区 别 ， 我 使 用 Sal1_matches 作为 preg_match_all 的 变量 名 ， 而 不 是 Spreg_match 
中 常用 的 Smatches。 


preg_match_all 可 以 以 两 种 方式 在 $a11_matches 中 存放 数据 ， 根 据 下 面 两 个 互 斥 的 第 4 


个 参数 flag; PREG_PATTERN_ORDER 或 是 PREG_SET_ORDER 来 决定 。 


默认 的 排列 方式 是 PREG_PATTERN_ORDER 下 面 有 个 例子 (我 称 其 为 “ 按 分 组 编号 的 
(coliated)” 一 一 稍 后 将 介绍 )。 如 果 设 有 设置 标志 位 ， 这 就 是 默认 的 配 列 方式 : 


Ssubject = " 

Jack A. Smith 

Mary B. Miller"; 

/* 不 设置 flags 就 采用 PREG_PATTERN_ORDER */ 

preg_match_all ('/*(\w+) (\w\.) (\w+)$/m', $subject, $all_matches) ; 


Sall_matches 的 结果 为 


array 
( 
/* Sall_matches[0] 对 应 所 有 的 全 局 匹配 */ 
0 => array ( 0 => "Jack A. Smith", /* 第 1 次 匹配 的 全 部 文本 */ 
1 => "Mary B. Miller" /* 第 2 次 匹配 的 全 部 文本 */ ), 


/* Sall_matches[1] 对 应 第 1 组 捕获 型 括号 匹配 的 信息 */ 
1 => array ( 0 => "Jack", /* 第 1 次 匹配 中 的 第 1 组 捕获 型 括号 */ 
1 => "Mary"  /* 第 2 次 匹配 的 第 1 组 捕获 型 括号 */ ) ， 


/* Sall_matches[2] 对 应 第 2 组 捕获 型 括号 匹配 的 信息 */ 
2 => array ( 0 => "A.", /* 第 1 次 匹配 中 的 第 2 组 捕获 型 括号 */ 
1 => "B." /* 第 2 次 匹配 中 的 第 2 组 捕获 型 括号 */ ), 


/* Sall_matches[3] 对 应 第 3 组 捕获 型 括号 匹配 的 信息 */ 
3 => array ( 0 => "Smith"，/* 第 1 次 匹配 中 的 第 3 组 捕获 型 括号 */ 
1 => "Miller" /* 第 2 次 匹配 中 的 第 3 组 捕获 型 括号 */ ) 
) 

一 共 匹 配 了 两 次 ， 每 次 都 包含 一 个 “全 局 匹配 ”字符 串 ， 以 及 3 个 捕获 型 括号 对 应 的 子 字 
符 串 。 我 称 其 为 “ 按 分 组 编号 的 (collated)” ， 因 为 所 有 的 全 局 匹配 都 存放 在 一 个 数组 里 〈 在 
Sall_matches [0], 每 次 匹配 中 ,第 1 组 括号 配 的 文本 存放 在 另 一 个 数组 Sal1_matches [1] 
中 ， 依 次 类 推 。 


默认 情况 下 ，$all_matches 是 按 分 组 编号 的 ， 但 我 们 可 设置 PREG_SET_ORDER 来 改变 它 。 


iH 
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PREG_SET_ORDER 排列 方式 如 果 设 定 了 PREG_SET_ORDER 标志 位 ， 就 会 采用 “堆肥 
(stacked)” 的 排列 方式 。 它 会 把 第 1 次 匹配 的 所 有 数据 保存 在 $all_matches[0] 中 , 第 2 
次 匹配 的 所 有 数据 保存 在 $a11_matches [1] H, 依次 类 推 。 这 就 是 我 们 检索 字符 串 的 顺序 ， 
把 每 次 成 功 匹 配 的 smatches 放 进 $all_matches 数组 中 。 


下 面 是 之 前 那个 例子 的 PREG_SET_ORDER 的 版 本 : 
Ssubject = " 
Jack A. Smith 
Mary B. Miller"; 


preg_match_all('/*(\w+) (\w\.) (\w+)$/m', $subject, $all_matches, PREG_SET_ORDER) ; 


结果 是 : 
array 
( 
/* Sall_matches[0] 等 价 于 preg_match 的 Smatches */ 
0 => array (0 => "Jack A. Smith", /* 第 1 次 整体 匹配 */ 
1 => "Jack", /* 第 1 次 整体 匹配 的 第 1 个 捕获 型 括号 */ 
2 => °A.", /* 第 1 次 整体 匹配 的 第 2 个 捕获 型 括号 */ 
3 => "Smith" /* 第 1 次 整体 匹配 的 第 3 个 捕获 型 括号 */ ) ， 
‘/* Sall_matches[1] 等 价 于 preg_match 的 Smatches */ 
1 => array (0 => "Mary B. Miller", /* 第 1 次 整体 匹配 */ 
1 => "Mary", /* 第 2 次 整体 匹配 的 第 1 个 捕获 型 括号 */ 
2 => °B.*, /* 第 2 次 整体 匹配 的 第 2 个 捕获 型 括号 */ 
3 => "Miller" /* 第 2 次 整体 匹配 的 第 3 个 捕获 型 括号 */ ) ， 
) 
两 种 排列 方式 的 总 结 如 下 : 











将 各 次 匹配 中 同样 编号 的 分 组 编 在 一 起 
$all_matches([$paren_num] [$match_num) 


将 每 次 匹配 的 数据 集中 保存 
$all_matches [$match_num] [Sparen_num] 









PREG_PATTERN_ORDER 


PREG_SET_ORDER 





preg_match_all 和 PREG_OFFSET_CAPTURE 标志 位 


就 像 preg_match 一 样 ， 也 可 以 在 preg_match_all 中 使 用 PREG_OFFSET_CAPTURE, ik 
$all_matches 的 每 个 未 端 元 素 (leaf element) 成 为 一 个 两 个 元 素 的 数组 (匹配 的 文本 ， 以 
及 按 字 节 计算 的 偏 移 值 )。 也 就 是 说 ，$all_matches 成 为 一 个 数组 的 数组 的 数组 ， 这 可 真 
饶舌 。 如 果 你 希望 同时 使 用 PREG_OFFSET_CAPTURE 和 PREG_SET_ORDER， 请 使 用 逻辑 运算 
fF “or” Hie: 


preg_match_all ($pattern, $subject, $all_matches, 
PREG_OFFSET_CAPTURE | PREG_SET_ORDER) ; 
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457 


如 果 使 用 了 命名 分 组 ，$all_matches 将 会 多 出 命名 元 素 ( 同 preg_match —##7451), ix 


段 程序 : 
$subject = " 
Jack A. Smith 


Mary B. Miller"; 


/* 不 设置 flags HAA PREG_PATTERN_ORDER */ 


preg_match_all('/*(?P<Given>\w+) 


Ssubject, 
$all_matches 的 结果 是 ; 

array 

( 0 => array ( 0 => 
“Given” => array ( 0 => 
1 => array ( 0 => 
"Middle" => array ( 0 => 
2 => array ( 0 => 
"Family" => array ( 0 => 
3 => array ( 0 => 


) 


如 果 使 用 PREG_SET_ORDER: 


Ssubject = " 
Jack A. Smith 
Mary B. Miller"; 


preg_match_all{'/*(?P<Given>\w+) 


Ssubject, 


结果 就 是 : 


array 

( 

(0 
Given 
1 
Middle 
2 
Family 
3 

1 => array (0 

Given 
1 
Middle 
2 
Family 
3 


0 => array 


) 


我 个 人 认为 ， 在 使 用 了 命名 分 组 之 后 ， 


Sall_matches, 


(?P<Middle>\w\.) 


S$all_matches); 


(?P<Family>\w+)$/m', 


"Jack A. Smith", 1 => "Mary B. Miller" ), 
"Jack", 1 => "Mary" ae 
"Jack", 1 => "Mary" Fa 
a Ea 1 => "B," y 
Ri 1 => "B.* ), 
"Smith", 1 => "Miller"), 
"Smith", 1 => *Miller” ) 


(?P<Middle>\w\.) 


Vv 


"Jack A. Smith", 
"Jack", 

"Jack", 

"AS", 

nA 

"Smith", 

"Smith" ), 

"Mary B. Miller", 
“Mary”, 

"Mary", 

"B, i 

"B, r 

"Miller", 
"Miller" ) 


VVVVWVYV 


Vv vv 


Le 
v 


Vv 


(?P<Family>\w+)$/m', 


PREG_SET_ORDER) ; 


就 应 该 去 掉 数字 编号 ， 因 为 这 样 程序 更 清晰 ， 效 率 
更 高 ， 不 过 ， 如 果 它 们 被 保留 了 ， 你 可 以 当 它 们 不 存在 。 
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使 用 方法 
preg_replace(pattern, replacement, subject [, limit [, count ]]) 
参数 简介 
pattern 分 隔 符 包围 起 来 的 正则 表达 式 , 可 能 出 现 修饰 符 。pattern 也 可 能 是 一 个 pattern- 
argument 字符 串 的 数组 。 


replacement replacement 字符 串 ， 如 果 pattern 是 一 个 数组 ， 则 replacement 是 包含 多 个 字符 
串 的 数组 。 如 果 使 用 了 模式 修饰 符 e， 则 字符 串 (或 者 是 数组 中 的 字符 串 ) 会 
被 当 作 PHP 代码 (7459), 


subject 需要 搜索 的 目标 字符 串 。 也 可 能 是 字符 串 数组 ( 按 顺 序 依 次 处 理 )。 
limit 非 强制 出 现 ， 是 一 个 整数 ， 表 示 替 换 发 生 的 上 限 (7460), 
count 非 强制 出 现 ， 用 来 保存 实际 进行 的 替换 次 数 (只 有 PHP5 Hh, 7460), 


返回 值 


如 果 subject 是 单个 字符 串 ， 则 返回 值 也 是 一 个 字符 串 (subject 的 副本 ， 可 能 经 过 修改 )。 
如 果 subject 是 字符 串 数组 ， 返回 值 也 是 数组 (包含 subject 的 副本 ， 可 能 经 过 修改 )。 


讲解 


PHP 提供 了 许多 对 文本 进行 查找 -替换 的 办 法 。 如 果 查 找 部 分 可 以 用 普通 的 字符 串 描 述 ， 
str_replace 或 者 str_ireplace 就 更 合适 ,但 是 如 果 查 找 比 较 复杂 ， 就 应 该 使 用 preg_ 


replace, 


来 看 一 个 简单 的 例子 : 在 Web 开发 中 经 常会 遇 到 这 样 的 任务 ， 把 信用 卡号 或 电话 号 码 输入 
一 张 表 单 。 你 是 否 经 常 看 到 “不 要 输入 空格 和 连 字 符 ” 的 提示 ? 要 求 用 户 按 规 则 输入 数据 ， 
还 是 由 程序 员 做 一 点 小 小 的 改进 ， 让 用 户 可 以 照 自己 的 习惯 输入 数据 ? 哪 种 办 法 更 好 ( 注 
3) ? 毕竟， 这 里 我 们 的 要 求 就 是 “清理 ”这 样 的 输入 数据 ， 

Scard_number = preg_replace('/\D+/', ' ', $card_number) ; 

/* S$card_number 只 包含 数字 ， 或 者 为 空 */ 
其 中 用 preg_replace 来 去 掉 非 数字 字符 。 更 确切 的 说 ， 它 用 preg_replace 来 生成 
scard_number 的 副本 ， 将 其 中 的 非 数 字 字符 替换 为 空 ( 空 字符 串 )， 把 这 个 经 过 修改 的 副 
本 赋值 给 $card_number。 


注 3: 显然 ，Web 开发 中 懒惰 的 程序 员 随 处 可 见 ， 所 以 我 兄弟 所 做 的 “不 要 输入 连 字 社 和 空格 ” 
的 纪念 堂 很 不 幸 地 证 明了 这 一 点 。 参 考 http://www.unixwiz.net/ndos-shame.himl , 
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单字 符 串 ， 单 替换 规则 的 preg_replace 


前 面 三 个 元 素 (pattern, replacement 和 subject) 都 是 既 可 以 为 字符 串 ， 也 可 以 为 字符 串 数 
组 。 通 常 这 三 者 都 是 普通 的 字符 串 ，preg_replace 首先 生成 subject 的 副本 ， 在 其 中 找到 
pattern 的 第 1 次 匹配 ， 将 匹配 的 文本 替换 为 replacement， 然 后 重复 这 一 过 程 ， 直 到 搜索 到 
字符 串 的 末尾 。 


在 replacement 字符 串 中 ,“$0 ”表示 匹配 的 所 有 文本 ， “$1” RRE 1 组 捕获 型 括号 匹配 的 
文本 ,，“$2” 表 示 第 2 组 ， 依 次 类 推 。 请 注意 ， 美 元 符 加 数字 的 字符 序列 并 不 会 引用 变量 ， 
虽然 它们 在 其 他 某 些 语 言 中 有 这 种 功能 ， 但 是 preg_replace 能 识别 简单 的 序列 ， 并 进行 
特殊 处 理 。 你 可 以 使 用 一 对 花 括号 来 包围 数字 ， 比 如 “${0}” 和 “${1}"， 这 样 就 不 会 引起 
RH. l 


这 个 简单 的 例子 把 HTML 的 bold tag 转换 为 全 部 大 写 : 
$html = preg_replace('/\b[(A-Z]{2,}\b/', '<b>$0</b>', $html); 
如 果 使 用 了 模式 修饰 符 e( 它 只 能 出 现在 preg_replace 中 ) ,replacement 字符 串 会 作为 PHP 


代码 ， 每 次 匹配 时 执行 ， 结 果 作为 replacement 字符 串 。 下 面 这 个 扩展 的 例子 把 bold tag 里 
的 单词 变 为 小 写 : 
Shtml = preg_replace('/\b[A-Z]{2,}\b/e', 


'strtolower ("<b>S0</b>")', 
$html); 


如 果 正 则 表达 式 匹配 的 单词 是 “HEY”, replacement 字符 串 中 的 $0 会 被 替换 为 这 个 值 。 结 果 ， 
replacement 字符 串 就 成 了 “strtolower ("<b>HEY</b>")', 执行 这 段 PHP 代码 , 结果 就 是 


‘<b>hey</b>’, 


如 果 使 用 模式 修饰 符 e, replacement 字符 串 中 的 捕获 引用 会 按照 特殊 的 规定 来 插值 : 插值 
中 的 引号 ( 单 引号 或 双 引 号 ) 会 转 义 。 如 果 不 这 样 处 理 ， 插 和 的 数值 中 的 引号 会 导致 PHP 
代码 出 错 。 


如 果 使 用 模式 修饰 符 e。， 在 replacement 字符 串 中 引用 外 部 变量 ， 最 好 是 在 replacement 字符 
串 文本 中 使 用 单 引 号 ， 这 样 变量 就 不 会 进行 错误 的 插值 。 
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这 个 例子 类 似 于 PHP 内 建 的 htmlspecialchars () PAR: 


Sreplacement = array ( '&' => ‘&amp; ' 
Iet => 2hite 1 
‘sy! => ' &gt; ' 
ns we TEUGE: Jy 
$new_subject = preg_replace('/[&<">]/eS', '$replacement["$0"]', $subject); 


需要 注意 , 这 个 例子 中 的 replacement 使 用 了 单 引 号 字符 串 来 避免 Sreplacement 变量 插值 ， 
直到 将 其 作为 PHP 代码 执行 。 如 果 使 用 双 引 号 字符 串 ， 在 传递 给 preg_replace 之 前 ， 插 
值 就 会 进行 。 


可 以 用 模式 修饰 符 S 用 来 提高 效率 (7478). 


preg_replace 的 第 4 个 参数 用 来 设 定 替换 操作 次 数 的 上 限 (单位 是 单个 字符 串 - 单 个 正则 
表达 式 ， 参 见 下 一 节 )。 默 认 值 是 -1， 表 示 “ 没 有 限制 ”。 


如 果 设 置 了 第 5 个 参数 count (PHP4 没有 提供 ) ， 它 会 用 来 保存 preg_replace 的 实际 替换 
的 次 数 。 如 果 你 希望 知道 是 否 发 生 了 替换 ， 可 以 比较 原来 的 目标 字符 串 和 结果 ， 不 过 检查 
count 参数 效率 更 高 。 


多 字符 串 ， 多 蔡 换 规则 


前 一 节 已 经 提 到 ， 目 标 字符 串通 常 是 普通 字符 串 ， 至 少 我 们 目前 看 到 的 所 有 例子 都 是 如 此 。 
AL, subject 也 可 以 是 一 个 字符 串 数组 ， 这 样 搜索 和 替换 是 对 每 个 字符 串 依 次 进行 的 。 返 
回 值 也 是 由 每 个 字符 串 经 过 搜索 和 替换 之 后 的 数组 。 


无 论 使 用 的 是 字符 串 还 是 字符 串 数组 ，pattern 和 replacement 参数 也 可 以 是 字符 串 数 组 ， 下 
面 是 各 种 组 合 及 其 意义 : 


字符 囊 应 用 pattern， 将 每 次 匹配 的 文本 替换 为 replacement 


数组 轮流 应 用 pattern， 将 每 次 匹配 的 文本 替换 为 replacement 
FHS 轮流 应 用 pattern, 将 每 次 匹配 的 文本 替换 为 对 应 的 replacement 


om TEH 
如 果 subject 参数 是 数组 ， 则 依次 处 理 数组 中 的 每 个 元 素 ， 返 回 值 也 是 字符 串 数 组 。 
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请 注意 limit 参数 是 以 单个 pattern 和 单个 subject 为 单位 的 。 它 不 是 对 所 有 的 pattern 和 subject 
生效 。 返 回 的 $count 则 是 所 有 pattern 和 subject 字符 申 所 进行 操作 次 数 的 总 合 。 


这 里 有 一 个 preg_replace 的 例子 ,其 中 pattern Fl replacement 都 是 数组 。 其 结果 类 似 于 PHP 
内 建 的 htmlspecialchars() 函数 ， 它 保证 处 理 过 的 文本 符合 HTML 规范 : 
$cooked = Preg_replacel 
/* 要 匹配 的 文本 ... */ array('/&/', '/</', zt/', TSF" No 
/* 要 替换 的 文本 . . . */ array('&amp;', ‘&lt;', ‘&gt;', ‘&quot;'), 
/* ... 要 操作 的 目标 字符 事 */ $text 
3 


AT&T --> “baby Bells" 


Scooked 的 值 就 是 : 


AT&amp;T --&gt; &quot;baby Bells&quot; 


当然 也 可 以 预先 准备 好 这 些 数 组 ， 下 面 的 程序 运行 结果 相同 : 


Spatterns = array {'/&/', eft, "Asl" TTF" N 
Sreplacements = array('&amp;', '&lt;', '&gt;', ‘&quot;:'); 


Scooked = preg_replace ($patterns, $replacements, $text); 


preg_replace 能 够 接收 数组 作为 参数 是 很 方便 的 (这 样 程序 员 就 不 需要 使 用 循环 在 各 个 
pattern 和 subject 中 进行 运 代 )， 但 是 它 的 功能 并 没有 增强 。 比 如 ， 各 个 patem 并 不 是 “并 
行 ”处 理 的 。 但 是 ， 相 比 自己 写 PHP 循环 代码 ， 内 建 的 处 理 效率 更 高 ， 而 且 更 容易 阅读 。 


为 了 说 清楚 ， 请 参考 这 个 例子 ， 其 中 所 有 的 参数 都 是 数组 : 


$result _array = preg_replace($regex_array, S$replace array, $subject_array) ; 


它 等 价 于 : 


Sresult_array = array(); 
foreach ($subject_array as $subject) 
{ 
reset (Sregex_array) ; // 准备 遍历 两 个 数组 
reset (Sreplace_array); // 把 数组 指针 恢复 到 开头 位 置 


while (list(,$regex) = each($regex_array) ) 
{ 
list(,$replacement) = each($replace_array) ; 
// regex 4° replacemnet 已 经 准备 就 绪 ， 应 用 到 subject ... 
$subject = preg_replace($regex, $replacement, $subject); 
} 
// 已 经 处 理 完 所 有 的 regex， 此 subject 处 理 完毕 .. . 
Sresult_array[] = $subject; // .. .附加 到 结果 数组 中 


iil 
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数组 参数 的 排序 问题 如 果 pattern 和 replacement 都 是 字符 串 ， 它 们 会 根据 数组 的 内 部 顺序 
配对 ， 这 种 顺序 通常 就 是 它们 添加 到 数组 中 的 先后 顺序 (pattern 数组 中 添加 的 第 1 个 元 素 
对 应 replacement 数组 中 的 第 1 个 元 素 ， 依 次 类 推 )。 也 就 是 说 ， 对 于 array () 创建 的 “ 文 
本 数组 ”来 说 ， 排 序 没有 问题 ， 例 如 : 
Ssubject = "this has 7 words and 31 letters"; 
$result = preg_replace(array('/{a-z]+/', '/\d+/"), 
array ('word<$0>', ‘num<$0>'), 


$subject); 


print "result: $result\n"; 


‘Ta-z]+i tM ‘word<$0>’, PIRAY'\d+i 对 应 “num<$0>'， 结 果 就 是 


result: word<this> word<has> num7> word<words> word<and> num<31> word<letters> 


相反 ， 如 果 pattern 或 replacement 数组 是 多 次 填充 的 ， 数 组 的 内 部 顺序 可 能 就 不 同 于 keys 
的 顺序 (也 就 是 说 ， 由 keys 表示 的 数字 顺序 ) 。 所 以 前 一 页 的 程序 使 用 数组 模拟 
preg_replacement 的 程序 要 使 用 each 来 按照 数组 的 内 部 上 顺 序 思 历 整个 数组 ， 而 不 关心 它 
们 的 keys 如 何 。 


如 果 pattern 或 replacement 数组 的 内 部 顺序 不 同 于 你 希望 匹配 的 顺序 ， 可 以 使 用 ksort () 
图 数 来 确保 每 个 数组 的 实际 顺序 和 外 表 顺 序 是 相同 的 。 


如 果 pattern 和 replacement 都 是 数组 ， 而 pattern 中 元 素 的 数目 多 于 replacement 中 的 元 素 ， 
则 会 在 replacement 数组 中 产生 对 应 的 空 字符 串 ， 来 进行 配对 。 


pattern 数组 中 的 元 素 顺 序 不 同 ， 结 果 可 能 大 不 相同 ， 因 为 它们 是 按照 数组 中 的 顺序 来 处 理 
的 。 如 果 把 例子 中 的 pattern 数组 的 顺序 颠倒 过 来 (把 replacement 数 组 中 的 顷 序 也 颠倒 过 来 )， 
结果 是 什么 呢 ? 也 就 是 说 ， 下 面 代码 的 结果 是 什么 呢 ? 


$subject = "this has 7 words and 31 letters"; 


$result = preg_replace(array('/\d+/', '/[a-z]+/'}), 
array ('num<\0>', '‘word<\0>'), 
$subject); 


print "result: $result\n"; 


> 请 翻 到 下 页 查看 答案 。 
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使 用 方法 


preg_replace_callback(pattern, callback, subject [, limit [, count ]]) 


参数 简介 

pattern ”分 隔 符 包围 起 来 的 正则 表达 式 ， 可 能 出 现 修饰 符 (444)。 也 可 能 是 字符 串 数组 。 
callback PHP 回调 函数 ， 每 次 匹配 成 功 ， 就 执行 它 ， 生 成 replacement FFR, 

subject ”需要 搜索 的 目标 字符 串 。 也 可 能 是 字符 串 数 组 (依次 处 理 )。 

limit 非 强制 出 现 ， 设 定 替 换 操作 的 上 限 (7460), 

count  ” 非 强制 出 现 ， 用 来 保存 实际 发 生 替换 的 次 数 (只 在 PHP 5.1.0 中 提供 ) 。 

返回 值 

如 果 subject 是 字符 串 ， 返 回 值 就 是 字符 串 (其 实 是 subject 的 一 个 副本 ， 可 能 经 过 了 修改 )。 


如 果 subject 是 字符 串 数组 ， 返 回 值 就 是 数组 (每 个 元 素 都 是 subject 中 对 应 元 素 的 副本 ， 可 
能 发 生 了 修改 )。 


讲解 


preg_replace_callback 类 似 于 preg_replace, RÆ replacement 参数 变 成 了 PHP 回调 
函数 ,而 不 是 字符 串 或 是 字符 串 数组 , 它 有 点 像 使 用 模式 修饰 符 e 的 preg_replace(459)， 
但 是 效率 更 高 (如 果 replacement 部 分 的 代码 很 复杂 ， 这 种 办 法 更 易于 阅读 )。 


请 参考 PHP 文档 获得 更 多 关于 回调 的 知识 ， 不 过 简单 地 说 ，PHP 回调 引用 (以 许多 种 方式 
中 的 一 种 ) 一 个 预先 规定 的 函数 ,以 预先 规定 的 参数 ,返回 预先 规定 的 值 .在 preg_replace_ 
callback 中 ， 每 次 成 功 匹 配 之 后 都 会 进行 这 种 调用 ， 参 数 是 $matches 数组 。 国 数 的 返回 
值 用 作 preg_replace_callback 作为 replacement。 


回调 可 以 以 三 种 方式 引用 函数 。 一 种 是 直接 以 字符 串 形 式 给 出 函数 名 ; 另 一 种 是 用 PHP 内 
建 的 create_function 生成 一 个 匿名 函数 。 稍 后 我 们 会 看 到 使 用 这 两 种 方法 的 例子 。 第 三 
种 方式 本 书 没 有 提 及 ， 它 采用 面向 对 象 的 方式 ， 由 一 个 包含 两 个 元 素 (分 别 是 类 名 和 方法 
名 ) 的 数组 构成 。 
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测验 答案 


4 462 页 问题 的 答案 
462 页 问题 中 的 程序 运行 结果 如 下 (为 了 适应 排版 ， 进 行 了 折 行 ) : 


result: word<this> word<has> word<num><7> word<words> 
word<and> word<num><31> word<letters> 


如 果 这 两 处 粗 体内 容 出 乎 你 的 意料 ， 原 因 在 于 ,使 用 多 个 正则 表达 式 的 preg_match 


(使 用 pattern 数组 ) 并 不 会 “并 行 ”处 理 这 些 pattern， 而 是 依次 进行 。 
在 这 个 例子 中 ， 第 1 组 pattern/replacement 会 在 subject 中 添加 两 个 num<…> ， 这 两 个 
“num ”会 被 数组 中 的 下 一 个 pattern 匹配 。 然 后 每 个 “num” 变 成 “word<num> ， 最 
终 得 到 这 个 意料 之 外 的 结果 。 
这 个 例子 告诉 我 们 ， 如 果 preg_replace 使 用 了 多 个 pattern， 一 定 要 注意 安排 它们 的 
顺序 。 





下 面 这 个 例子 用 preg_replace_callback 和 辅助 函数 重 写 了 第 460 页 的 程序 。callback 参 
数 是 一 个 字符 串 ， 包 含 辅助 函数 的 名 字 ; 


$sreplacement = array ( '&' => ‘&amp;', 
te! sy 'kit:', 
ty! => ‘égt;', 
' => '&quot;'); 
/* 


* CRAD, Smatches(0] 中 保存 的 是 需要 转 接 为 HTML HFRS, VIHRRRK, K&D 
* HTML 字 桂 事 。 因 为 此 函数 只 在 确保 安全 的 情况 下 调用 ， 此 处 不 考虑 意外 情况 
*/ 
function text2html_callback ($matches) 
{ 
global $replacement; 
return $replacement [$matches[0]]; 
} 


Snew_subject = preg_replace_callback('/[&<«">]/S', /* pattern */ 
"text2html_callback", /* callback */ 
Ssubject); 
如 果 $subject 的 值 是 : 


"AT&T" sounds like "ATNT" 


则 $new_subject 的 值 就 是 : 


&quot ;AT&amp;T&quot; sounds like &quot;ATNT&quot; 


本 例 中 的 text 2html_callback 是 普通 的 PHP mR, FAYE preg_replace_caliback 中 的 
回调 函数 ， 它 的 接收 参数 是 smatches 数组 (当然 ， 这 个 变量 可 以 随意 命名 ， 不 过 我 选择 遵 
循 之 前 使 用 $matches 的 惯例 )。 


It 
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为 完整 起 见 , 下 面 我 给 出 使 用 匿名 函数 的 办 法 (使 用 PHP 内 建 的 create_function 国 数 )。 
这 段 程序 产生 的 Sreplacement 变量 与 上 面 一 样 。 函 数 体 也 相同 ， 只 是 此 时 函数 没有 名 字 ， 
只 能 在 preg_replace_callback 中 使 用 ; 


Snew_subject = preg_replace_callback('/[&<">]/S', 
create_function('$matches', 
‘global $replacement; 
return S$replacement [S$matches[0]];'), 
$subject); 


使 用 callback， 还 是 模式 修饰 符 e 


如 果 处 理 不 复杂 ， 使 用 模式 修饰 符 的 程序 比 preg_replace_callback 更 容易 看 懂 。 但 是 ， 
如 果 效 率 很 重要 , 那么 请 记 住 ， 如 果 使 用 模式 修饰 符 e, 每 次 匹配 成 功 之 后 都 需要 检查 作为 
PHP 代码 的 replacement 参数 。 相 比 之 下 , preg_replace_callback 的 效率 就 要 高 许多 (如 
果 使 用 回调 ，PHP 代码 只 需要 审查 1 次 )。 





使 用 方法 


preg_split (pattern, subject [, limit, [ flags ]]) 


参数 简介 


pattern ”分隔 符 包 围 起 来 的 正则 表达 式 ， 可 能 还 有 修饰 符 ( 了 444)。 
subject ”需要 分 割 的 目标 字符 串 。 
limit = 非 强制 出 现 ， 是 一 个 整数 ， 表 示 切 分 之 后 元 素 的 上 限 。 


flags 。” 非 强制 出 现 ， 此 标志 位 影响 整个 切割 行为 ， 以 下 三 项 可 以 随意 组 合 : 
PREG_SPLIT_NO_EMPTY 
PREG_SPLIT_DELIM_CAPTURE 
PREG_SPLIT_OFFSET_CAPTURE 


它们 的 讲解 从 第 468 页 开始 。 多 个 标志 位 使 用 二 元 运算 符 “ 或 ”来 连接 (与 第 456 


页 一 样 )。 
返回 值 
返回 一 个 字符 串 数组 。 
讲解 


preg_split 会 把 字符 串 的 副本 切 分 为 多 个 片段 , 以 数组 的 形式 返回 。 非 强制 出 现 参数 limit 
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设 定 返 回 数组 中 元 素数 目的 上 限 (如 果 需 要 ， 最 后 的 元 内 包括 “其 他 所 有 字符 ")。 可 以 设 
定 不 同 的 标志 位 来 调整 返回 的 方式 和 内 容 。 


从 某 种 意义 上 来 说 ，preg_split 做 的 是 与 preg_match_all 相反 的 事情 : 它 找 出 目标 字符 
串 中 不 能 由 正则 表达 式 匹 配 的 部 分 。 或 者 更 传统 地 说 ，preg_split 返回 的 是 ， 将 目标 字符 
串 中 正则 表达 式 匹配 的 部 分 删 去 之 后 的 部 分 。preg_split 大 概 相当 于 PHP 中 内 建 的 简单 
explode 函数 ， 不 过 使 用 的 是 正则 表达 式 ， 而 且 功 能 更 强大 。 


来 看 个 简单 的 例子 , 如 果 某 家 金融 网 站 需要 接收 用 空格 分 隔 的 股票 行情 。 可 以 使 用 explode 
拆 分 这 些 行情 数据 : 


Stickers = explode(' ', $input); 


不 过 ， 如 果 输 入 数据 时 不 小 心 输入 了 不 只 一 个 空格 ， 这 个 程序 就 不 能 处 理 了 。 更 好 的 办 法 
是 使 用 preg_split， 用 正则 表达 式 八 s+, 来 切 分 ; 


$tickers = preg_split('/\s+/', $input); 


除了 明确 运用 “用 空格 切 分 ”的 规则 之 外 ， 用 户 也 通常 使 用 逗号 (或 者 是 逗号 加 空格 ) 来 
分 隔 ， 比 如 “YHoo，MSFT，GO0G ` 。 这 些 情况 也 很 容易 处 理 ; 


Stickers = preg_split('/[\s,]+/', $input); 


针对 上 面 的 数据 ，$tickers 得 到 的 是 包含 3 个 元 素 的 数组 :“Y8oo" 、'MSFT” 和 “cooG ' 。 


如 果 输 入 的 数据 是 逗号 分 隔 的 〈 例 如 给 照片 标记 tag 时 使 用 的 “Web 2.0," ) ， 就 需要 用 
'\s*,\s*) KAD: 


Stags = preg_split('/\s*,\s*/', Sinput); 


比较 \s*,\s*, 和 '[\s,]+, 很 能 说 明 问 题 。 前 者 用 逗号 来 切 分 (逗号 必须 出 现 )， 但 也 会 删 
去 逗号 两 边 的 空白 字符 。 如 果 输 入 “123,, ,456” ， 则 能 够 进行 3 次 匹配 (每 次 匹配 一 个 去 
号 )， 返 回 4 个 元 素 :“123" ， 两 个 空 字符 串 ， 最 后 是 “456 "。 


另 一 方面 ，[\s, ] + 会 使 用 任何 逗号 、 连 续 的 逗号 、 空 白字 符 , 或 者 是 空白 字符 和 逗号 的 结 
合 来 切 分 。 FE ‘123,,,456’ H, 它 一 次 就 能 匹配 3 个 逗号 , 返回 两 个 元 素 , “123” 和 ‘456’, 


limit 参数 


limit 参数 用 来 设 定 切 分 之 后 数组 长 度 的 上 限 。 如 果 搜 索 尚 未 进行 到 字符 串 结尾 时 ， 切 分 的 
片段 的 数目 已 经 达到 limit， 则 之 后 的 内 容 会 全 部 保存 到 最 后 的 元 素 当中 。 
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来 看 个 例子 ， 我 们 需要 手工 解析 服务 器 返回 的 HTTP response。 按 照 标准 ，header 和 body 
的 分 隔 是 四 字符 序列 “\r\n\r\n” ,不幸 的 是 ， 有 的 服务 器 使 用 的 却 是 “\n\n'。 幸 好 ， 我 
们 有 preg_split， 很 容易 处 理 这 两 种 情况 。 假 设 整 个 response 保存 在 Sresponse H; 


Sparts = preg_split('/\r? \n \r? \n/x', $response, 2); 


header 保存 在 Sparts[0] 中 ， 而 body 保存 在 Sparts[1] 中 (使 用 模式 修饰 符 S 是 为 了 提高 
BBL 478) 。 


第 3 个 参数 ， 即 limit 的 值 等 于 2, RAN subject 字符 串 最 多 只 能 切 分 成 两 个 部 分 。 如 果 找 到 
了 一 个 匹配 ， 匹 配 之 前 的 部 分 (也 就 是 header) 会 成 为 返回 值 的 第 一 个 元 素 。 因 为 “字符 
申 的 其 他 部 分 ”是 第 2 个 元 素 ， 这 样 就 到 达 了 上 限 ， 它 (我们 知道 是 body) 会 原封 不 动 地 
作为 返回 值 中 的 第 二 个 元 素 。 


如 果 没 有 limit (或 者 limit 等 于 -1， 这 两 种 情况 是 等 价 的 ) preg_split 会 尽 可 能 多 地 切 分 
subject 字符 串 ， 这 样 body 可 能 也 会 被 切 分 为 许多 段 。 设 置 上 限 并 不 能 保证 返回 的 数组 中 包 
含 的 元 素 就 等 于 这 个 数 ， 而 只 是 保证 最 多 包含 这 么 多 元 素 (阅读 关于 PREG_SPLIT_DELIM_ 
CAPTURE 的 小 节 ， 你 会 发 现 甚至 这 种 说 法 也 不 完全 对 )。 


在 两 种 情况 下 ， 应 该 人 为 设置 上 限 。 我 们 已 经 见 过 一 种 情况 : 希望 最 后 的 元 素 包含 “其 他 
所 有 内 容 ”。 在 前 一 个 例子 中 ， 一 旦 第 一 段 (header) 被 切 分 出 来 ， 我 们 就 不 希望 再 对 其 他 
部 分 (body) 进行 切 分 。 所 以 ， 把 上 限 设 为 2 会 保留 body, 


如 果 用 户 知道 自己 不 需要 切割 出 来 所 有 元 素 , 也 可 以 设 定 上 限 , 提高 效率 。 例 如, 如 果 $data 
字符 串 包含 以 \s*, \s*! 分 隔 的 许多 字段 (比如 姓名 、 地 址 、 年 龄 ， 等 等 )， 而 只 需要 前 面 
两 个 ， 就 可 以 把 limit 设置 为 3， 这 样 preg_split 在 切 分 出 前 两 个 字段 之 后 就 不 会 继续 工 
fF: 


S$fields = preg_split('/ \s*, \s*/x', $data, 3); 


这 样 其 他 内 容 都 保存 在 最 后 的 第 3 个 元 素 中 ， 我 们 可 以 用 array_pop 来 删除 ， 或 者 置 之 不 
理 。 


如 果 你 希望 在 没有 设置 上 限 的 情况 下 使 用 任何 preg_split 标志 位 (下 一 节 讨 论 )， 则 必须 
提供 一 个 占 位 符 ， 将 limit 设置 为 -1， 它 表示 “ 设 有 限制 "。 相 反 ， 如 果 limit 等 于 1， 则 表 
示 “ 不 需要 切 分 "， 所 以 它 并 不 常用 。 上 限 等 于 0 或 者 -1 之 外 的 任何 负数 都 没有 定义 ， 所 以 
请 不 要 使 用 它们 。 


Iii 


www.TopSage.com 


468 第 10%. PHP 


flag 参数 


preg_split 中 可 以 使 用 的 3 个 标志 位 都 会 影响 函数 的 功能 。 它 们 可 以 单独 使 用 ， 也 可 以 用 
二 元 运算 符 “or” 连 接 (参见 第 456 页 的 例子 )。 


PREG_SPLIT_OFFSET_CAPTURE 就 像 在 preg_match 和 preg_match_all 中 使 用 prec_ 
OFFSET_CAPTURE 一 样 , 这 个 标志 位 会 修改 结果 数组 ,把 每 个 元 素 变 为 包含 两 个 元 素 的 数组 
(元 素 本 身 和 它 在 字符 串 中 的 偏 移 值 )。 


PREG_SPLIT_NO_EMPTY 这 个 标志 位 告诉 preg_split 忽略 空 字符 串 , 不 把 它们 放 在 返回 数 
组 中 ， 也 不 记 入 limit 的 统计 。 对 目标 字符 串 的 起 始 位 置 、 结 尾 位 置 ， 或 是 空 行 的 匹配 ， 都 
会 带 来 空 字符 串 。 


下 面 来 改进 前 面 的 “Web 2.0” 的 tag 的 例子 (7466), MRsinput 为 “party,, fun’, $ 
么 : 

Stags = preg_split('/\s*, \s*/x', $input); 
得 到 的 Stags 包含 3 PICK: ‘party’, SEH, Rak ‘fun’, SFHRRESHRK 
匹配 之 间 的 “空白 ”。 
如 果 设 置 了 PREG_SPLIT_NO_EMPTY 标志 位 : 


Stags = preg_split('/\s*, \s*/x', $input, -1, PREG_SPLIT_NO_EMPTY) ; 
ERMA RAE ‘party’ Mi ‘fun’, 


PREG_SPLIT_DELIM_CAPTURE 这 个 标志 位 在 结果 中 包含 匹配 的 文本 ， 以 及 进行 此 次 切 分 的 
正则 表达 式 的 捕获 括号 匹配 的 文本 。 来 看 个 简单 的 例子 , 如 果 字 符 串 中 各 个 字段 是 以 “and” 
和 “or” 来 联系 的 ， 例 如 : 


DLSR camera and Nikon D200 or Canon EOS 30D 
如 果 不 使 用 PREG_SPLIT_DELIM_CAPTURE， 
$parts = preg_split('/\s+ (andlor) \s+ /x', $input); 
得 到 的 Sparts Æ: 
array ('DLSR camera’, ‘Nikon D200', ‘Canon EOS 30D') 
分 隔 符 中 的 匹配 内 容 被 去 掉 了 。 不 过 ， 如 果 使 用 了 PRE_SPLIT_DELIM_CAPTURE 标志 位 
(并 且 用 -1 作为 limit 参数 的 占 位 符 ): 


Sparts = preg_split('/\s+ (andlor) \s+ /x', $input, -1, 
PREG_SPLIT_DELIM_CAPTURE) ; 


Sparts 包含 了 捕获 型 括号 匹配 的 分 隔 符 : 


array ('DLSR camera', ‘and', ‘Nikon D200', ‘or', 'Canon EOS 30D') 


itl 
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此 时 ， 每 次 切 分 会 在 结果 数组 中 增加 一 个 元 素 ， 因 为 正则 表达 式 中 只 有 一 组 捕获 型 括号 。 
然后 我 们 就 能 够 遍历 $parts 中 的 元 素 ， 对 找到 的 “anda” 和 “or ”进行 特殊 处 理 。 


请 注意 ， 如 果 使 用 了 非 捕获 型 括号 (如 果 pattern BRA ‘/\s+(?:andlor)\s+/’), 
PREG_SPLIT_DELIM_CAPTURE 标志 位 不 会 产生 任何 效果 ， 因 为 它 只 对 捕获 型 括号 有 效 。 


来 看 另 一 个 例子 ， 第 466 页 分 析 股 市 行情 的 例子 : 


Stickers = preg_split('/[\s,]+/', $input); 


如 果 我 们 添加 捕获 型 括号 ,以 及 PREG_SPLIT_DELIM_CAPTURE 


Stickers = preg_split('/([\s,]+)/', $input, -1, PREG_SPLIT_DELIM_CAPTURE) ; 


结果 $input 中 的 任何 字符 都 设 有 被 抛弃 ， 它 只 是 切 分 之 后 保存 在 Scickers 中 。 处 理 
Stickers 数组 时 , 你 知道 编号 为 奇数 的 元 素 是 '([\s, ]+) 1 匹配 的 。 这 可 能 很 有 用 ,如 果 在 
向 用 户 显 示 错 误 信息 时 ， 可 以 对 不 同 的 部 分 分 别 进行 处 理 ， 然 后 将 它们 合并 起 来 ， 还 原 出 
输入 的 字符 串 。 


还 有 一 点 需要 注意 ， 通 过 PREG_SPLIT_DELIM_CAPTURE 添加 的 元 素 不 会 影响 切 分 上 限 。 只 
有 在 这 种 情况 下 ， 结 果 数 组 中 的 元 素数 目 才 可 能 超过 上 限 (如 果 正 则 表达 式 中 的 捕获 型 括 
号 很 多 ， 则 元 素 就 要 更 多 )。 


结尾 的 未 参与 匹配 的 捕获 型 括号 不 会 影响 结果 数组 。 也 就 是 说 ， 如 果 一 组 捕获 型 括号 没有 
参与 最 终 匹 配 (参见 450 页 ) ， 可 能 会 也 可 能 不 会 在 结果 数组 中 添加 空 字符 串 。 如 果 编 号 更 
靠 后 的 捕获 型 括号 参与 了 最 终 匹 配 ， 就 会 增加 ， 否 则 就 不 会 。 请 注意 ， 如 果 使 用 了 
PREG_SPLIT_NO_EMTPY 标志 位 ， 结 果 会 有 变化 ， 因 为 空 字符 串 上 表 定 会 被 抛弃 。 





使 用 方法 
preg_grep( pattern, input[, flags]) 
参数 简介 
pattern 分 隔 符 包围 起 来 的 正则 表达 式 ， 可 能 出 现 修饰 符 。 
input ”一 个 数组 ， 如 果 它 们 的 值 能 够 匹配 pattermn ， 则 其 值 会 复制 到 返回 的 数组 中 。 
flags 非 强制 出 现 ， 此 标志 位 PREG_GREP_INVERT 或 者 是 0。 
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返回 值 


一 个 数组 ， 包 含 input 中 能 够 由 pattern 匹配 的 元 素 (如 果 使 用 了 PREG_GREP_INVERT 标志 
位 ， 则 包括 不 能 匹配 的 元 素 ) 。 


讲解 

preg_grep 用 来 生成 input 数组 的 副本 ， 其 中 只 保留 了 value 能 够 匹配 (如 果 使 用 了 
PREG_GREP_INVERT 标志 位 ， 则 不 能 匹配 ) pattern 的 元 素 。 此 value 对 应 的 key 会 保留 。 
来 看 个 简单 的 例子 


preg_grep('/\s/', $input); 


它 返回 Sinput 数组 中 的 ， 由 空白 字符 构成 的 元 素 。 相 反 的 例子 是 : 


preg_grep('/\s/', $input, PREG_GREP_INVERT); 


它 返 回 不 包含 空白 字符 的 元 素 。 请 注意 ， 第 二 个 例子 不 同 于 : 


preg_grep('/^\S+$/', $input); 


因为 后 者 不 包括 空 〈 长 度 为 0) 值 元 素 。 


使 用 方法 
preg_quote( input [, delimiter ]) 
参数 简介 


input ”希望 以 文字 方式 用 作 pattern 参数 的 字符 串 (7444). 
delimiter 非 强制 出 现 的 参数 , 包含 1 个 字符 的 字符 串 , 表示 希望 用 在 pattern 参数 中 的 分 隔 


返回 值 


preg_quote 返回 一 个 字符 串 ， 它 是 input 的 副本 ， 其 中 的 正则 表达 式 元 字符 进行 了 转 义 。 
如 果 指 定 了 分 隔 符 ， 则 分 隔 符 本 身 也 会 被 转 义 。 


讲解 
如 果 要 在 正则 表达 式 中 以 文字 方式 使 用 某 个 字符 串 , 可 以 用 内 建 的 preg_quote 函数 来 转 义 


其 中 可 能 产生 的 正则 表达 式 元 字符 。 如 果 指 定 了 创建 pattern 时 使 用 的 分 隔 符 ， 字 符 串 中 的 
分 隔 符 也 会 被 转 义 。 
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preg_quote 是 专门 应 对 特殊 情况 的 函数 ， 在 许多 情况 下 没有 用 ， 不 过 这 里 有 个 例子 ， 


/* MASMailSubject, #/#fSMailMessage 对 应 主题 */ 
$pattern = '/*Subject:\s+(Re:\s*)*' . preg_quote($MailSubject, '/') . '/mi'; 


如 果 $Mailsubject 包含 下 面 的 字符 串 


**Super Deal** (Act Now!) 


最 后 Spattern 就 会 是 


/“^Subject:\s+(Re:\s*)*\*\*Super Deal\*\* \(Act Now\!\) /mi 
这 样 就 可 以 作为 preg 函数 的 pattern 参数 了 。 


如 果 指 定 的 分 隔 符 是 “{” 之 类 对 称 的 字符 ， 那 么 对 应 的 字符 (例如 “}') 不 会 转 义 ， 所 以 
请 务必 使 用 非 对 称 的 分 隔 符 。 


同样 ， 空 白字 符 和 “#” 也 不 会 转 义 ， 所 以 结果 可 能 不 适 于 用 x 修饰 符 。 


这 样 说 来 ， 在 把 任意 文本 转换 为 PHP 正则 表达 式 的 问题 上 ，preg_quote 并 不 是 完善 的 解 
决 办 法 。 它 只 解决 了 “文本 到 正则 表达 式 ” 的 问题 ， 而 没有 解决 “正则 表达 式 到 pattem 参 
数 ” 的 问题 ， 任 何 preg 函数 都 需要 这 一 步 。 下 一 节 给 出 了 解决 办 法 。 


“缺失 ”的 preg way 


“Missing ”Preg Functions 


PHP 内 建 的 preg 函数 已 经 提供 了 繁多 的 功能 ， 但 是 有 时候 我 仍然 发 现 它们 不 够 用 。 一 个 例 
子 是 我 自己 开发 的 preg_match (7454), 


RRA, 另 一 类 需要 提供 自己 的 支持 函数 的 情形 是 , 正则 表达 式 不 是 在 程序 内 部 通过 pattern 
参数 字符 串 提供 的 ， 而 是 来 自 程序 外 部 〈 例 如 ， 从 文件 读 和 人， 或 者 是 在 Web 表单 中 提交 ) 。 
下 一 节 我 们 将 会 看 到 ， 把 纯粹 的 正则 表达 式 字符 申 转换 为 适合 patem 参数 使 用 的 形式 也 很 
复杂 。 


同样 ， 在 使 用 这 些 正则 表达 式 之 前 ， 通 常 都 必须 验证 他 们 的 语法 正确 性 。 我 同样 会 讲解 这 
些 问 题 。 


与 本 书 中 的 所 有 程序 代码 一 样 ， 下 一 页 的 函数 也 可 以 从 我 的 网 站 下 载 : httpy/regex.info/。 


Hl 
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preg_regex_to_pattern 
如 果 正 则 表达 式 包 含 在 字符 串 中 〈 可 能 是 从 配置 文件 读 入 ， 或 者 通过 Web 表单 提交 )， 在 


preg 函数 中 使 用 时 ， 首 先 必须 在 两 端 加 上 分 隔 符 ， 才 能 生成 一 个 preg 函数 能 用 的 pattern 参 
数 。 


问题 所 在 


许多 时 候 ， 把 正则 表达 式 转 换 为 paten 参数 只 不 过 是 在 两 端 加 上 斜 线 而 已 。 这 样 ， 正 则 表 
达 式 字符 串 “[a-z]+” 就 成 了 “/[a-zl+/"， 可 以 用 作 preg KRH pattern 参数 的 字符 串 。 


如 果 正 则 表达 式 中 包含 用 作 分 隔 符 的 字符 ， 情 况 就 很 复杂 。 例 如 ， 正 则 表达 式 是 
“shttp://((*/:]+)", 仅仅 在 两 端 添 加 反 斜 线 得 到 /^http://(1^/:]+)/”, 用 作 pattern 
时 ， 结 果 会 是 “Unknown modifier /” , 


第 448 页 已 经 介绍 过 ， 这 个 错误 信息 是 因为 字符 串 中 的 前 两 个 余 线 字符 被 当 作 分 隔 符 ， 之 
后 的 部 分 (在 这 里 就 是 第 3 个 斜 线 之 后 的 部 分 ) 被 当 作 修饰 符 序列 了 。 


解决 之 道 


有 两 种 办 法 能 解决 内 菊 分 隔 符 的 问题 。 之 一 是 选择 正则 表达 式 中 没有 出 现 的 分 隔 符 ， 如 果 
需要 手工 构造 pattern-modifier 字符 串 ， 那 么 这 当然 是 推荐 的 办 法 了 。 所 以 我 在 第 444、449 
和 450 页 (还 有 许多 ) 的 例子 中 使 用 (…)} 作 为 分 隔 符 。 


要 选 出 正则 表达 式 中 没有 出 现 的 分 隔 符 可 能 并 不 容易 (其 至 不 可 能 )， 因 为 字符 串 中 可 能 包 
含 所 有 分 隔 符 ， 或 者 你 不 能 预先 知道 需要 处 理 的 文本 。 在 实际 应 用 正则 表达 式 时 这 需要 特 
别 关 注 ， 所 以 最 简单 的 办 法 是 使 用 第 二 种 : 选择 一 个 分 隔 符 ， 然 后 对 正则 表达 式 字 符 串 中 
出 现 的 此 分 隔 符 进行 转 义 。 


问题 可 能 比 初 看 起 来 要 困难 许多 ， 因 为 你 必须 关注 某 些 重要 的 细节 。 例 如 ， 在 目标 字符 串 
末尾 的 转 义 必须 进行 特殊 处 理 ， 保 证 它 不 会 转 义 紧 跟 在 后 面 的 分 隔 符 。 


下 面 的 函数 接收 正则 表达 式 字 符 串 ， 以 及 可 能 出 现 的 pattern-modifier 字符 串 ， 返 回 一 个 可 
以 用 于 preg 函数 的 pattern 字符 串 。 代 码 中 难看 的 反 斜 线 (正则 表达 式 和 PHP 子 串 转 义 ) 或 
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许 是 你 见 过 的 最 复杂 的 表示 ， 这 段 代码 并 不 容易 读 懂 (如果 你 希望 补习 PHP 单 引 号 字符 申 
的 语意 ， 请 参考 第 444 页 )。 


/* 
* 输入 字符 事 形式 的 正则 表达 式 (AHA pattern-modifier 字符 事 ) ， 返 回 适合 preg 函数 
* 的 字符 事 ， 此 表达 式 包 含 在 分 隔 符 之 内 ， 后 面 可 能 还 跟 有 修饰 罕 
ne 
function preg_regex_to_pattern($raw_regex, $modifiers = "") 
{ 
/* 
* 进行 转换 需要 在 pattern Akk (KRLRAHA) 并 添加 修饰 符 
* 必须 转 义 表达 式 内 部 的 分 隔 待 ， 表 达 式 结尾 的 转 义 必须 特殊 处 理 ， 否 则 它 会 转 义 最 后 的 分 隔 竺 
* 不 能 育 目 转 义 表达 式 内 部 的 分 隔 待 ， 因 为 表达 式 内 部 可 能 包括 已 经 特 义 的 分 隔 替 
例如 ， 如 果 表 达 式 是 '\/'， 痛 目 转 义 得 到 '\\/'， 最 终结 果 是 '/\\//'， 这 显然 不 对 


* 应 当 把 表达 式 分 为 三 类 : 已 转 义 的 字符 、 未 转 义 的 针线 (需要 处 理 ) 和 其 他 字符 。 
* 还 需要 注意 字符 事 结尾 的 转 义 


if (! preg_match('{\\\\(1:/1$)}', Sraw_regex)) /* BMA'\'MEOSH'/' */ 
{ 
/* 不 存在 已 转 义 的 针线 ， 末 尾 也 没有 转 义 ， 直 接 转 义 其 中 的 针线 即 可 */ 
$cooked = preg_replace('!/!', '\/', $raw_regex) ; 
} 
else 
{ 
/* 用 来 解析 Sraw_regex 的 pattern 
* 捕获 型 括号 内 的 两 个 部 分 需要 转 义 */ 
$pattern = '{ [“\\\\/]+ | AAAA TC 7 INAANS ) }sx'; 


/* Sraw-regex 中 Spattern 的 每 次 成 功 匹 配 都 需要 调用 回调 函数 
* 如 果 Smatches [1] 不 为 空 ， 返 回转 义 后 的 结果 
* 否则 不 做 修改 直接 返回 */ 


$f = create_function('Smatches'，， /* 这 个 长 长 的 
if (empty (Smatches [1])) 。 /* 单 引 号 
return $matches[0]; /* PAPRA 
else /* 函数 的 


return "\\\\" . $matches[1]; /* 代码 
5 
/* 将 Spattern 应 用 到 $raw_regex， 得 到 $cooked */ 
$cooked = preg_replace_callback($pattern, $f, $raw_regex); 
} 


/* 现在 可 以 在 Scooked HMRMOMBRT, REMLBRA, RELEW */ 
return "/Scooked/$modifiers"; 
} 


每 次 需要 的 时 候 重 新 写 这 个 函数 太 麻烦 ， 于 是 我 将 它 封 装 到 一 个 函数 中 (我 希望 它 会 成 为 
preg 套件 中 的 内 建 函数 )。 


有 兴趣 的 读者 不 妨 想 想 函 数 尾 部 preg_replace_callback 使 用 的 正则 表达 式 : 它 如 何 工 
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作 ， 以 及 回调 函数 如 何人 遍历 整个 paten 字符 捉 ， 转 义 每 个 未 转 义 的 斜 线 ， 而 不 修改 已 转 义 
的 斜 线 。 


对 未 知 的 Pattern 参数 进行 语法 检查 


Syntax-Checking an Unknown Pattern Argument 


在 正则 表达 式 两 端 添加 分 隔 符 之 后 ， 我 们 确信 它 适 于 用 作 preg ABA pattern 参数 了 ， 但 是 
原来 的 正则 表达 式 还 没有 经 过 语法 正确 性 检验 。 


举例 来 说 ， 如 果 原 始 的 正则 表达 式 是 “* .txt”， 因 为 某 些 人 希望 使 用 文件 群 组 功能 (24) 
而 不 是 正则 表达 式 ， 那 么 preg_regex_to_pattern 返回 的 就 是 /* .txt/。 这 个 正则 表达 式 
当然 不 合法 ， 所 以 程序 会 发 出 警报 (如果 启 用 了 警报 功能 ) : 


Compilation failed: nothing to repeat at offset 0 


PHP 没有 内 建 检测 paten 参数 及 其 正则 表达 式 的 语意 是 否 合法 的 函数 ， 不 过 我 为 读者 提供 
了 一 个 ， 


preg_pattern_error 会 对 pattem 参数 进行 简单 测试 ， 试 图 使 用 此 正则 表达 式 一 一 在 函数 
当中 有 一 行 调用 preg_match, 函数 的 其 他 部 分 使 用 关注 PHP 的 管理 功能 处 理 preg_match 
可 能 显示 的 错误 信息 。 
/* 
* 如 果 输 入 的 pattern 或 其 中 的 正则 表达 式 和 参数 语法 不 正确 ， 输 出 错误 信息 
* 否则 (语法 正确 ) 返回 false。 
*/ 
function preg_pattern_error($pattern) 
{ 
/* 
* 要 判断 Pattern 是 否 有 锚 ， 直 接 党 试 使 用 它 。 
* 检测 和 捕获 此 错误 却 不 容易 ， 尤 其 是 希望 获得 友好 提示 ， 而 且 不 修改 全 局 状态 
* 所 以 加 果 打 开 了 “track_errors ， 则 保存 Sphp_errormsg ， 之 后 恢复 它 的 状态 
* 如 果 没有 打开 ， 则 打开 它 (因为 需要 用 到 )， 完 成 之 后 再 关闭 
*/ 
if (Sold_track = ini get ("track errors")) 
Sold_message = isset($php_errormsg) ? $php_errormsg : false; 
else 
ini_set('track_errors', 1); 


/* RAMU track_errors 已 经 打开 */ 


unset ($php_errormsg) ; 
@ preg_match($pattern, ""); /*#@@M pattern */ 
Sreturn_value = isset($php_errormsg) ? $php_errormsg : false; 


/* 现在 捕获 了 需要 的 内 容 ， 恢 复 全 局 状态 */ 
if ($old_track) 

Sphp_errormsg = isset($old_message) ? $old_message : false; 
else 

ini_set('track_errors', 0); 


return Sreturn_value; 
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对 未 知 正则 表达 式 进行 语法 检查 


Syntax-Checking an Linknown Regex 


这 个 图 数 使 用 刚刚 开 发 的 功能 来 检查 一 个 纯正 则 表达 式 (没有 分 隔 符 也 没有 模式 修饰 符 ) 
的 语法 。 如 果 语 法 不 正确 ， 会 返回 对 应 的 错误 信息 ， 如 果 语 法 正确 ， 返 回 false, 

/* 

* 如 果 表 达 式 语法 错误 ， 返 回 错误 信息 ， 如 果 语 法 正确 返回 false 

*y 

function preg_regex_error ($regex) 

{ 


return preg _pattern_error (preg_regex_to_pattern ($regex) ); 
} 


递归 的 正则 表达 式 


Recursive Expressions 


preg 引擎 所 属 的 流派 的 大 多 数 方面 都 在 第 3 章 中 有 所 介绍 ， 但 是 此 流派 还 提供 了 某 些 新 的 
有 意思 的 功能 用 于 匹配 媒 套 结构 : 递归 的 表达 式 。 


序列 '(?R) 表示 “在 此 处 递归 应 用 整个 表达 式 " M (enum) ,表示 “在 此 处 递归 应 用 num 
所 对 应 编号 的 捕获 型 括号 中 的 序列 "。 命 名 捕获 的 括号 则 使 用 (?P>name) ,表示 法 。 


下 面 几 节 展示 了 常见 的 递归 。 递 归 在 扩展 的 “tagged data” HIF (7481) 中 占有 重要 地 位 。 


匹配 嵌 套 括号 内 的 文本 


Matching Text with Nested Parentheses 


基本 的 递归 的 例子 是 匹配 嵌 套 的 括号 内 的 文本 ， 下 面 是 一 种 办 法 : (?:[^()]++ 


ICORA) ) si。 


这 个 表达 式 匹配 任意 多 个 双 多 选 分支 结 构 。 第 1 个 多 选 分 支 '[^() 1++ 匹配 除 括号 之 外 的 任 
何 字符 。 因 为 外 面 有 (?:…) *!， 这 个 多 选 分 支 要 求 使 用 占有 优先 的 加 号 ， 避 免 “ 无 休止 匹 
Ac” (7226). 


另 一 个 多 选 分 支 \((?R) \) 1 才 是 问题 的 关键 。 它 匹 配 一 对 插 号 , 其 中 可 以 包括 任何 字符 (A 
要 括号 的 嵌 亦 是 格式 正确 的 )。 这 里 的 “之 间 ” 的 部 分 是 整个 正则 表达 式 希 望 匹 配 的 内 容 ， 
也 就 是 我 们 可 以 通过 (?R) ,直接 递归 使 用 整个 正则 表达 式 的 原因 。 
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这 个 表达 式 本 身 可 以 正常 工作 ， 但 如 果 要 添加 任何 字符 ， 请 务必 小 心 ， 因 为 调用 (?R) ,时 
添加 的 任何 字符 同样 会 递归 。 


如 果 使 用 这 个 正则 表达 式 来 校 验 一 个 括号 配对 不 正确 的 字符 串 ， 你 可 能 希望 在 两 端 加 上 
“~…$1 来 确保 “整个 字符 串 ”"。 这 是 不 对 的 ， 因 为 添加 的 行 错 点 会 被 递归 应 用 到 整个 字符 申 
之 中 ， 导 致 匹配 失败 。 


递归 引用 一 组 捕获 型 括号 


OR 1 结构 会 递归 引用 整个 正则 表达 式 ， 但 也 可 以 使 用 '(?num) ,结构 引用 到 其 中 的 子 集 。 
它 递归 引用 编号 为 num” 的 捕获 型 括号 内 的 子 表达 式 ( 注 4)。 如 果 用 '(?num) ,来 思考 ,'(?0)， 
RAF (eR). 


我 们 可 以 使 用 这 种 部 分 递归 因 来 解决 前 面 那 一 节 中 出 现 的 问题 : 在 添加 “…s$ 之 前 , 我 们 用 
一 个 捕获 型 括号 把 正则 表达 式 的 主体 部 分 围 起 来 ,然后 在 以 前 使 用 '(?R) ,的 地 方 使 用 (21). 
添加 捕获 型 括号 是 为 了 让 '(?1) ,能 够 引用 ， 你 或 许 还 记得 ， 这 就 是 上 一 节 匹 配 风 人 套 括号 的 
表达 式 。'^…$, 加 在 这 些 括号 之 外 ， 这 样 我 们 就 不 会 对 它们 进行 递归 调用 : 
ARZA OJIN ((?1)\) ) *) $i 





正则 表达 式 中 下 画 线 的 部 分 是 第 1 组 捕获 型 括号 ， 所 以 每 次 遇 到 (?1) ,都 会 重新 应 用 。 


下 面 PHP 代码 中 的 正则 表达 式 会 报告 stext 中 的 括号 能 否 配对 : 
if (preg_match('/* ( (?: [^()]++ | \( (?1) \) )* ) $/x', Stext)) 
echo "text is balanced\n"; 


else 
echo “text is unbalanced\n"; 


通过 命名 捕获 进行 递归 引用 


如 果 需 要 递归 调用 的 自 表达 式 处 于 命名 捕获 (7138) 中 ， 就 可 以 使 用 (?P>name) ;进行 递 
归 引 用 ， 而 不 是 之 前 的 (num ,表示 法 。 使 用 这 个 表示 法 ， 我 们 的 例子 就 成 了 : 


l'a (?p<stuff> (?: (~^()]++|I\((?P>stuff) \))*)$.) 


注 4: 严格 地 说 ,'(?num) 不 算 递 归 引 用 , 这 是 因为 ,'(?num) 1 结构 本 身 并 不 必然 是 编号 为 num™ 
的 捕获 型 括号 中 的 子 表达 式 的 一 部 分 。 此 时 ， 引 用 可 以 被 看 作 “ 子 程序 调用 。 


i 
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——— eS 


这 个 表达 式 可 能 看 起 来 很 复杂 ， 用 模式 修饰 符 x 可 以 看 得 更 清楚 一 点 : 


$pattern = '{ 
# 正则 表达 式 从 此 处 开始 ... 


(?P<stuff> 
# 这 一 组 括号 内 的 所 有 内 容 都 被 命名 为 "stuff." 


ces 


(*()]++ # PIER DPMS A 
| 
\( (?P>stuff) \) # Hi, RF "stuff, "然后 是 闭 括号 
)* 
) 
$ 
# ERARA 


}x'; # 'x' 是 模式 修饰 村 
if (preg_match(S$pattern, Stext)) 
echo “text is balanced\n"; 
else 
echo “text is unbalanced\n"; 


关于 占有 优先 量词 的 补充 


我 会 对 表达 式 中 的 占有 优先 量词 做 最 后 的 补充 。 如 果 外 部 的 '(?:…) “是 占有 优先 的 ,内 部 
就 不 必 使 用 Olu. 为 了 阻止 这 个 表达 式 进 入 无 休止 匹配 ， 其 中 之 一 (或 者 是 两 者 ) 必 
须 是 占有 优先 的 。 如 果 不 能 使 用 占有 优先 量词 和 固化 分 组 (一 259) ， 则 需要 去 掉 所 有 的 量 


ÀE]? ^O JIRA) D el。 


这 样 会 降低 效率 ， 但 是 至 少 不 会 进入 无 法 终止 的 匹配 。 要 提高 效率 ， 可 以 使 用 第 6 章 介绍 
的 “消除 循环 ”的 技巧 ， 得 到 '[^() ]*(?:\((?R)\) [^] 


不 能 回溯 到 递归 调用 之 内 


No Backtracking Into Recursion 


preg 正则 流派 的 递归 语意 的 重要 特性 之 一 是 ， 它 会 把 递归 结构 匹配 的 所 有 内 容 当 作 固 化 分 
组 括号 匹配 的 内 容 (259)。 也 就 是 说 ， 递 归结 构 不 会 部 分 “交还 (unmatch)” 某 些 已 经 匹 
配 的 内 容 来 实现 全 局 匹配 (而 是 导致 整个 匹配 失败 )。 


这 里 说 的 “部 分 ”是 很 重要 的 ， 因 为 回溯 时 ， 道 归 调 用 匹配 的 所 有 文本 可 以 作为 一 个 整体 
来 交还 。 但 不 容许 回溯 到 递归 调用 之 内 的 某 个 状态 。 
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匹配 一 组 嵌 套 的 括号 


Matching a Set of Nested Parentheses 


上 文 已 经 介绍 过 如 何 匹配 包含 规范 配对 括号 的 行 ， 这 里 我 会 介绍 匹配 对 称 括 号 的 办 法 (其 
中 可 能 包含 更 多 的 嵌 套 括号 ) : \((?:[^()]++1(?R))*\)j。 


这 个 表达 式 的 组 成 部 分 与 之 前 的 一 样 ， 但 是 顺序 安排 咯 有 不 同 。 同 样 ， 如 果 你 希望 把 它 当 
作 大 的 正则 表达 式 的 一 部 分 ， 应 该 把 它 包 括 在 捕获 型 括号 中 ， 并 且 修 改 (?R) ,来 递归 地 引 
用 对 应 的 自 表达 式 ， 例 如 '(?1)， (必须 使 用 这 组 捕获 型 括号 对 应 的 编号 )。 


效率 


PHP Efficiency Issues 


PHP 的 preg 程序 使 用 的 PCRE 是 经 过 优化 的 NFA 正则 引擎 ,所 以 第 4 到 6 章 介绍 的 许多 技 
巧 都 可 以 直接 应 用 。 其 中 包括 对 关键 部 分 进行 性 能 测试 ， 根 据 实 际 数据 而 不 是 从 理论 分 析 
来 比较 程序 的 快慢 。 第 6 章 给 出 了 PHP 的 性 能 测试 的 例子 (7234). 


如 果 程 序 对 时 间 要 求 很 严格 ， 请 记 住 两 点 ， 回 调 函 数 通常 要 比 模式 修饰 符 e 更 快 (7465), 
在 太 长 的 目标 字符 串 中 使 用 命名 捕获 必须 进行 更 多 的 数据 拷贝 。 

程序 运行 中 ， 遇 到 正则 表达 式 会 编译 ， 但 是 PH 有 一 个 容量 高 达 4096 个 正则 表达 式 的 大 
型 缓存 (7242), ， 所 以 实际 上 ， 特 殊 的 patem 字符 串 只 需要 在 第 一 次 遇 到 的 时 候 编译 。 
模式 修饰 符 S 值得 单独 介绍 : 它 会 “研究 (study)” 一 个 正则 表达 式 , 试图 进行 更 快 的 匹配 ( 它 


与 Perl 的 study 函数 不 相关 ，Perl 的 study 函数 研究 的 是 目标 字符 串 ， 而 不 是 正则 表达 式 
F359), 


模式 修饰 符 5: “研究 


The S Pattern Modifier: “Study” 


使 用 模式 修饰 符 S 告诉 正则 引擎 , 在 应 用 这 个 正则 表达 式 之 前 , 花 一 点 时 间 (TE 5) 来 研究 ， 
希望 这 些 多 花 的 时 间 是 值得 的 。 但 是 ， 也 可 能 这 样 做 之 后 也 不 会 提升 速度 ， 但 是 某 些 情 况 
下 ， 速 度 的 提升 是 与 数据 规模 相关 的 。 


现在 有 良好 的 标准 来 判断 哪 种 情况 下 此 功能 具有 价值 : 它 是 第 6 章 所 说 的 开头 字符 组 识别 
优化 (7247) 的 增强 。 


5; 确实 只 是 一 点 时 间 。 对 于 一 般 的 CPU， 非 常 长 非常 复杂 的 正则 表达 式 ， 使 用 模式 修饰 符 8 
只 需要 多 花 百 分 之 一 到 寺 分 之 一 秒 的 时 间 。 
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首先 要 告诉 你 的 是 ， 除 非 你 希望 对 大 规模 的 文本 应 用 某 个 正则 表达 式 ， 否 则 不 太 可 能 节省 
多 少时 间 。 只 有 把 同一 个 表达 式 应 用 到 大 规模 的 文本 ， 或 者 大 量 小 规模 文本 时 ， 才 需要 考 
虑 模式 修饰 符 S, 


不 使 用 模式 修饰 符 S$， 标准 优化 


来 看 个 简单 的 例子 < (\w+),。 从 这 个 表达 式 中 我 们 可 以 看 出 ， 每 次 匹配 必须 以 字符 “< J 
头 。 正 则 引擎 能 够 (preg 套件 必然 会 这 样 做 ) 利用 这 一 点 ， 预 先 在 目标 字符 串 中 搜索 “<”， 
只 在 这 些 位 置 应 用 完整 的 正则 表达 式 (因为 匹配 必须 以 '<, 开头, 在 其 他 位 置 进行 匹配 尝试 
是 徒劳 的 )。 


使 用 简单 预 搜 索 可 以 比 按部就班 应 用 整个 正则 表达 式 快 得 多 ， 原 因 就 在 于 这 种 优化 。 尤 其 
是 ， 需 要 搜索 的 字符 在 目标 字符 串 中 出 现 的 次 数 越 少 ， 优 化 越 明 显 。 同 样 ， 正 则 引擎 判断 
第 一 个 字符 匹配 失败 的 工作 量 越 大 ， 优化 越 明 显 。 这 种 优化 对 [<i>1</i>1<b>|</b>j 比 对 
< (\w+) EHE, 因为 在 进行 下 一 轮 尝试 之 前 , 正则 引擎 会 尝试 搜索 4 个 不 同 的 多 选 分 支 ， 
这 样 可 以 减少 许多 工作 量 。 


使 用 模式 修饰 符 S 进一步 优化 


preg 引擎 足够 聪明 ， 能 把 这 种 优化 应 用 到 大 多 数 正 则 表达 式 ， 它 们 的 匹配 必须 以 某 个 字符 
开头 ， 就 像 上 面 的 例子 一 样 。 不 过 ， 模 式 修饰 符 S 告诉 引擎 ， 对 于 可 能 以 多 个 字符 开头 的 
表达 式 ， 必 须 首先 分 析 正 则 表达 式 来 启用 这 种 优化 。 


这 里 有 几 个 正则 表达 式 的 例子 ， 其 中 有 一 些 在 本 章 中 已 经 出 现 过 ， 使 用 模式 修饰 符 S 的 结 
果 如 下 : 










< & 
Rr 

ADFJMNOS 

RS 

\x09 \x0A \x0C \x0D \x20, 
ee & 

\r \n 


<(\w+) [&(\w+); 
(Rrje: 

(Jan |Feb| += |Dec) \b 
(Re:\s*)? SPAM 
\S*, \s* 
[&<">] 
\r?\n\r?\n 
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模式 修饰 符 S 没有 用 处 的 场合 


想 想 在 哪些 情况 下 模式 修饰 符 S 没有 用 会 很 有 其 法 : 


。 “开头 有 销 点 的 表达 式 (例如 “! 和 bj, 或 者 一 个 销 点 紧 跟 全 局 性 多 选 分 支 。 这 限于 当 
前 的 实现 ，\b; 的 限制 ， 理 论 上 在 未 来 的 某 些 版 本 中 可 以 去 掉 。 


。 能够 匹配 空 字 符 的 表达 式 ， 例 如 \S*。 


。 ”表达 式 可 以 从 任何 字符 开始 匹配 (或 者 是 绝 大 多 数字 符 )， 例 如 (?: [^()]++1\ (1(?R) 
\) )* ,， 请 参考 第 475 页 的 例子 。 这 个 表达 式 能 够 从 除 “) ”之 外 的 任何 字符 开始 匹 
配 ， 世 以 预先 检查 一 遍 几 乎 不 会 去 掉 任 何 开 始 的 位 置 。 


。 ”开头 字符 只 有 一 种 可 能 的 表达 式 ， 因 为 它们 已 经 进行 了 优化 。 
使 用 建议 


使 用 模式 修饰 符 S 之 后 ，preg 引擎 花 在 预 分 析 上 的 时 间 并 不 会 太 长 ， 所 以 如 果 你 希望 对 大 
量 的 文本 应 用 正则 表达 式 ， 无 妨 使 用 它 。 如 果 你 觉得 有 机 会 使 用 ， 潜 在 的 可 能 就 值得 尝试 。 


扩展 示例 


Extended Examples 


用 这 两 个 例子 作为 本 章 的 结束 。 


用 PHP 解析 CSV 


CSV Parsing with PHP 


这 里 有 一 个 用 PHP 解析 CSV (逗号 分 隔 值 ) 的 程序 ， 原 来 的 例子 在 第 6 章 (7271), xi 
正则 表达 式 使 用 了 占有 优先 量词 〈 142) ， 而 不 是 固化 分 组 括号 ， 因 为 它们 看 起 来 更 清晰 。 


首先 ， 这 是 我 们 将 要 使 用 的 正则 表达 式 .: 


Scsv_regex = '{ 
\G(?:%*1,) 
(?: 
# 或 者 是 双 引 号 字段 ... 
" # 起 始 双 引号 
和 
" # 结束 双 引 号 
H... AEA... 
# ... 非 双 引 号 /过 号 文本 . . . 
( 


bee Rak ae 


) 
eee 
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然后 ， 我 们 用 它 来 解析 $csv 文件 中 的 一 行 


/* 应 用 正则 表达 式 ， 填 充 Sall matches */ 
preg_match_all($csv_regex, $line, $all_matches) ; 


/* SResult 用 来 保存 从 Sall_matches KANKRE */ 


SResult = array (); 


/* 遍历 每 个 成 功 的 匹配 ... / 
for ($i = 0; $i < count($all_matches[0]); $i++) 
{ 
/* 如 果 第 2 组 捕获 型 括号 匹配 了 ， 则 直接 使 用 */ 
if (strlen($all_matches[2][$i]) > 0) 
array_push($Result, $all_matches[2}[$i]); 
else 
{ 
/* 否则 为 引用 字段 ， 在 使 用 前 处 理 其 中 内 谋 的 相连 双 引 号 */ 
array_push($Result, preg_replace('/""/', '"', $all_matches[1] [$i])); 
} 
} 


/* 现在 可 以 使 用 SResult 数组 */ 


检查 tagged data KREERTE 


Checking Tagged Data tor Proper Nesting 


这 个 例子 有 点 复杂 ， 它 用 到 了 许多 有 意思 的 知识 : 检查 XML (或 者 是 XHTML ， 或 者 任何 
标记 的 数据 ) 是 否 包 含 孤 立 的 或 者 错误 匹配 的 标签 。 我 的 办 法 是 检查 正确 匹配 的 tag, 非 tag 
文本 ， 以 及 自封 闭 tag (self-closing tag， 例 如 <br/>， 用 XML 的 语言 来 说 就 是 一 个 “ 空 元 
素 tag”)， 希 望 我 能 找到 整个 字符 申 。 


下 面 是 完整 的 正则 表达 式 : 
(A((?:<(\w++) [^>] *+(?3<!1/)>(?1)</\2>|[^<>]++|<NwW[^>]*+/>)w+)5Sl 
能 够 匹配 的 字符 串 不 会 包含 错误 匹配 的 tag ( 稍 后 会 给 出 若干 告诫 ) 。 


这 可 能 相当 复杂 ， 但 是 如 果 分 解 为 各 个 部 分 ， 就 可 以 掌握 了 。 外 层 的 “(…)$: 包围 表达 式 
的 主体 ， 保 证 在 返回 success 之 前 匹配 整个 目标 字符 种 。 主 体 包含 在 一 组 捕获 型 括号 之 内 ， 
我 们 马上 会 看 到 ， 这 组 括号 容许 在 之 后 递归 引用 “主体 ”。 


正则 表达 式 的 主体 


正则 表达 式 的 主体 ， 就 是 这 三 个 多 选 分 支 (在 正则 表达 式 中 的 下 画 线 标注 ， 以 便 观 察 ) ， 它 
们 包含 在 (?:…)*+ 中， 容许 任意 的 混合 都 能 匹配 。 这 三 个 多 选 分 支 匹 配 的 分 别 是 :tags、 
4E tag 文本 ， 以 及 自封 闭 tag, 


HH 
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因为 每 个 多 选 分 支 能 够 匹配 的 文本 之 间 是 没有 冲突 的 (也 就 是 说 ， 如 果 一 个 多 选 分 支 能 够 
匹配 ， 另 两 个 就 不 能 匹配 )， 我 知道 稍 后 的 回 漳 永 远 不 会 容许 另 一 个 多 选 分 支 匹 配 同 样 的 文 
本 。 利 用 这 一 点 ， 我 们 可 以 使 用 占有 优先 的 星 号 ， 提 高 “容许 任何 混合 ”括号 的 匹配 效率 。 
它 告 诉 正则 引擎 ， 不 要 徒劳 地 回潮 ， 如 果 找 不 到 匹配 ， 就 很 快 出 结果 。 


因为 同样 的 原因 ， 三 个 多 选 分 支 可 以 以 任何 顺序 出 现 ， 我 把 最 可 能 匹配 的 多 选 分 支 放 在 最 
前 面 (7260), 


现在 逐个 看 这 些 多 选 分 支 : 


第 2 个 多 选 分 支 非 tag 文本 我 从 它 开始 讲 ， 因 为 '[^<>]++, 很 简单 。 这 个 多 选 分 支 匹 配 非 
tag 文本 。 在 这 里 使 用 占有 优先 量词 可 能 有 点 多 此 一 举 一 一 外 面 的 '(?:…)*+) ,也 是 占有 优 
先 的 , 但 是 为 了 安全 起 见 , 我 希望 在 我 知道 不 会 带 来 负面 影响 的 地 方 使 用 占有 优先 量词 。( 通 
常 使 用 占有 优先 量词 是 为 了 提高 效率 ， 但 是 它 也 会 改变 匹配 的 语意 。 这 种 修改 可 能 有 帮助 ， 
不 过 你 必须 清楚 它 的 后 果 字 259) 。 


第 3 个 多 选 分 支 自封 闭 tag 第 3 个 多 选 分 支 <\w[^>]*+/>! 匹 配 自封 闭 tag, 例如 <br/> 和 
<img…/> (HHH tag 在 后 面 的 尖 括 号 之 前 有 反 斜 线 ) 。 与 之 前 一 样 ， 占 有 优先 量词 可 能 有 
点 多 余 ， 但 它 肯定 不 会 带 来 负面 影响 。 


第 1 个 多 选 分 支 一 对 匹配 的 tags。 最 后 我 们 来 看 第 1 个 多 选 分 支 :<(\w++) [^>]*+(?<!/)> 


(?1)</\2>, 





这 个 子 表达 式 的 第 一 部 分 (LAP BRE) 匹配 开头 的 tag, A Ow) PRESNE 
表达 式 的 第 2 组 捕获 型 括号 (在 、\w++i 中 使 用 占有 优先 量词 是 很 重要 的 ， 我 们 将 会 看 到 ) 
匹配 tag 名 称 。 


(?<!1/ 六 是 否定 型 逆序 环视 (133), 确保 没有 匹配 斜 线 。 我 们 把 它 放 在 匹配 开头 tag 的 子 
表达 式 中 的 >, 之 前 ， 确 保 没有 匹配 自封 闲 tag， 例 如 <hr/> (我 们 已 经 看 到 ， 自 封闭 的 tag 
由 第 3 个 多 选 分 支 处 理 )。 


在 开头 tag 匹配 之 后 ，(?1)) 会 递归 地 应 用 到 第 一 组 捕获 型 括号 内 的 子 表 达 式 。 它 是 之 前 提 
到 的 “主体 ”, 也 就 是 一 块 只 包含 对 称 tag 的 文本 。 它 匹配 之 后 应 该 匹配 对 应 的 结尾 tag(closing 
tag) ， 就 是 这 个 多 选 分 支 的 第 一 部 分 匹配 的 (tag 的 名 字 捕 获 到 第 二 组 捕获 型 括号 ) '</\2> 
开头 的 </ 确 保 它 是 一 个 结尾 tag, \2>! 中 的 反 向 引用 确保 是 一 个 正确 的 结尾 ag, 
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如 果 是 检查 HTML 或 者 其 他 tag 名 不 区 分 大 小 写 的 数据 ， 请 在 正则 表达 式 之 前 添加 (eid, 
或 者 使 用 模式 修饰 符 i。 

完成 了 1 


占有 优先 量词 


关于 第 1 个 多 选 分 支 <(\w+r+*) [^>j*+(?<!7)>i 中 的 人 w+*+i 的 占有 优先 ， 我 希望 多 说 几 句 。 
如 果 流 派 的 功能 不 够 强大 ， 不 能 使 用 占有 优先 量词 或 者 固化 分 组 (139)， 我 会 在 这 个 多 
选 分 支 的 (\w+) 之 后 加 上 \b: < (\w+) \b[*>] * (2<!/) 21, 


\b 很 重要 ， 它 能 够 停止 (\w+ ) 的 匹配 ， 例 如 ,，“<1link>…</1i>” 中 第 一 个 “1i” 的 匹配 。 
这 样 会 将 “nk ”单独 留 在 捕获 型 括号 外 面 ， 导 致 后 面 的 反 向 引用 疏 2, 引 用 的 tag 名 不 完整 。 


正常 情况 下 这 些 都 不 会 发 生 ， 因 为 \w+ 是 匹配 优先 的 ， 会 匹配 整个 tag 名 。 不 过 ， 如 果 正 则 
AAR AARES ORE WAH, 它 应 该 匹配 失败 ， 搜 索 中 的 回溯 会 强迫 Nw 匹配 不 
完整 的 tag 名 ， 例 如 “<1link>…</1i>'"。 八 bi 能 解决 这 个 问题 。 


谢 天 谢 地 ，PHP 的 强大 的 preg 引擎 支持 占有 优先 量词 ， 使 用 (\w++) 与 附加 、\b, 的 意义 一 
样 : 不 容许 回溯 切割 tag 名 ， 但 是 效率 更 高 。 


真实 世界 的 XML 
真实 世界 的 XML 比 简单 的 匹配 tag 要 复杂 得 多 。 我 们 还 必须 考虑 XML 注释 .CDATA 部 分 、 
处 理 指令 和 其 他 。 


添加 对 XML 注释 的 支持 是 很 容易 的 ， 只 需要 增加 第 4 个 多 选 分 支 ，<!--.*?-->!， 请 务必 
使 用 (?s) ,或 者 是 模式 修饰 符 S， 这 样 点 号 能 够 匹配 换行 符 。 


同样 ，CDATA 部 分 的 格式 是 <! [cDATA[…]]>， 可 以 用 另 一 个 多 选 分 支 '<!\ [CDATA\ 
[.*?]] >, 来 处 理 ，'<?xml*version="1.0"?>” 之 类 的 处 理 指令 需要 再 添加 一 个 多 选 分 支 ; 


[<\? .wm?N?>j。 


entity 声明 的 形式 是 <!ENTITY…>， 可 以 用 '<!ENTITY\b.*?>, 来 处 理 。XML 中 有 许多 类 位 
的 结构 ， 他 们 中 的 大 部 分 可 以 用 '<! [A-2] .*?>; 取 代 '<!ENTITY\b.*?>) 来 处 理 。 
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484 第 10 W.: PHP 


虽然 还 有 些 问 题 ， 不 过 上 面 的 办 法 应 该 能 够 应 付 绝 大 多 数 XML。 下 面 是 完整 的 PHP 代码 ; 


Sxml_regex = '{ 

(?: <(\wee) [*>]*+ (?<!/)> (?1) </\2> # 匹配 一 组 七 ag 
| [^<>]++ # 非 tag 字符 
| <\w[*>] *+/> # 自封 闭 tag 
| <!--.*?--> # 注视 
1 <!\[CDATA\[.*?]]> # cdata 数据 
| <\?.*?\?> # 处 理 指令 
| <![A-Z].*?> # Entity 上 声明 之 类 

}*+ 

) $ 
}sx'; 


if (preg_match($xml_regex, $xml_string) ) 
echo "block structure seems valid\n"; 
else 
echo "block structure seems invalid\n"; 


HTML 


常见 的 情况 是 ， 真 实 世界 的 HTML 有 各 种 各 样 的 问题 ， 这 样 的 检测 几乎 没有 实用 价值 ， 例 
如 孤立 元 素 或 者 失 配 的 tag， 以 及 独立 出 现 的 “<” 和 “>” 字符。 不 过 ， 即 使 是 正确 配对 的 
HTML 也 有 些 特 殊 情 况 我 们 必须 处 理 ， 注 释 和 <script> tag。 


HTML 注释 规范 与 XML 注释 一 样 : <!--.*?-->!I， 使 用 模式 修饰 符 s。 


<script> 部 分 是 重要 的 ,因为 它 可 能 包含 <" 和 “>”, 所 以 必须 容许 <script…> 和 </script> 
之 间 出 现任 何 字 符 。 我 们 可 以 这 样 处 理 : '<script \b[^>]*> .*? </script>l。 有 趣 的 是 ， 
不 包含 禁止 出 现 的 “<” 和 “> ”的 字符 的 script 序列 会 被 第 1 个 多 选 分 支 捕获 ， 因 为 它 走 的 
也 是 “匹配 的 一 组 tag” 的 套路 。 如 果 <script> 不 包含 任何 其 他 字符 ， 第 1 个 多 选 分 支 会 失 
败 ， 这 些 文本 留 给 新 增 的 多 选 分 支 。 


这 里 是 HTML 版 本 的 PHP 程序 : 


Shtml_regex = '{ 


(2: <(\w++) [*>]*+ (?<!/)> (21) </\2> # 匹配 一 对 tag 
|} [*<>) ++ # tag 文本 
| <\w[*>] *+/> # 自封 用 上 ag 
| <!--,*?--> # 注释 
| <script\b[^>]*>.*?</script> # script 内 容 
) *+ 

)$ 

}isx'; 


if (preg_match($html_regex, $html_string) ) 
echo "block structure seems valid\n"; 


else 
echo "block structure seems invalid\n"; 


1 i 
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| avoiding 210 
distrusting 215-218 
introduction 148-149 
| optimization 255 
| in overall processing 242 
Byington, Ryan xxiv 
[byte matching 120, 442, 452-453, 456 


| 124 

‘\p{C} 122 

| Java 369 

‘\c 120 
PHP 442 
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strings 103 

/c 131-132, 315 

C comments 
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unrolling 275-276 

caching 242-245 
(see also regex objects) 
benchmarking 351 

| compile 242-245 

| Emacs 244 





| integrated 243 
| Java 478 
| .NET 432 
| object-oriented 244 
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Perl 350-352 
PHP 478 
procedural 244 
Tcl 244 
unconditional 350 
callback PHP 463, 465 
Capture 437 
CaptureCollection 438 
capturing parentheses Java 377 
car analogy 83-84 
caret anchor introduced 8 
carriage return 109, 370 
case title 110 
case folding 290, 292 
inhibiting 292 
case-insensitive mode 110 
egrep 14-15 
/i 47 
introduced 14-15 
Ruby 110 
with study 359 
cast 294-295 
Categories (see Unicode, properties) 
\p{Cce} 123 
CDATA 483 
Celsius (see temperature conversion 
example) 
\p{Cft} 123 
chaining (of methods) 389 
character 


base 120 
classes xvii 
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combining 107, 120 
Inherited script 122 
vs. combining characters 107 
control 117 
initial character discrimination 245-248, 
252, 257-259, 332, 361 
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multiple code points 108 
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negated 
must match character 11-12 
and newline 119 
Tel 112 
positive assertion 119 
of POSIX bracket expression 127 
range 9, 119 
as separate language 10 
set operations 125-127 
subtraction 406 
subtraction (set) 126 
| subtraction (simple) 125 
character equivalent 128 
character-class subtraction .NET 406 
CharBuffer 373, 376, 387 
charnames pragma 290 
CharSequence 365, 373, 382, 397 
CheckNaughtiness 358 
\\p{Cherokee} 122 
| Chinese text processing 29 
chr 420 
chunk limit 
| Java 396 
Perl 323 
| PHP 466 
|C/KV Information Processing 29 
class xvii 
initial class discrimination 245-248, 252, 
257-259, 332, 361 
(see also character class) 
Click, Cliff xxiv 
client VM 236 
clock clicks 239 
\p{Close_Punctuation} 123 
closures 339 
‘\p{Cn} 123, 125-126, 369, 408 
Java 369 
\p{Co} 123 
code example 
Java 81, 209, 217, 235, 371, 375, 
378-379, 381-384, 389 
.NET 219 
{code point 
beyond U+rrrr 109 
introduced 107 
| multiple 108 
| unassigned in block 124 
‘coerce 294-295 
‘cold VM 236 
‘collated data 455 
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索引 


combining character 107, 120 
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introduced 59 
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COMMAND.COM 7 
comments 99, 136 
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matching of C comments 272-276 
matching of Pascal comments 265 
.NET 420 
XML 483 
comments and free-spacing mode 111 
Communications of the ACM 85 
comparison of engine types (see NFA) 
Compilation failed 474 
com: 
caching 242-245 
once (/o) 352-353 
on-demand 351 
regex 410-411 
compile method 372 
Compiled (.NET) 237, 408, 410, 420, 
427-428, 435 
Compilers — Principles, Tecbniques, and 
Tools 180 
CompileToAssembly 433, 435 
conditional 140-141 
with embedded regex 327, 335 
mimicking with lookaround 140 
.NET 409-410 
Config module 290, 299 
conflicting metacharacters 44-46 
\p{Connector_Punctuation} 123 
Constable, Robert 85 
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text; match, context) 
contorting 
Perl 294 
forcing 310 
metacharacters 44-46 
regex use 189 
continuation lines 178, 186-187 
unrolling 270-271 
contorting an expression 294-295 
\p{Control} 123 
control characters 117 
Conway, Damian 339 
cooking for HTML 68, 414 
copy for $& (see pre-match copy) 
correctness vs. efficiency 223-224 
counting quantifier (see interval) 
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| VB.NET 219 
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| € 123-124, 367, 406 

| \p{Currency} 124 
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| \p{Se} 123 

| Unicode block 123-124 
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\D 49, 120 
\d 49, 120 

Perl 288 

PHP 442 
pri 197 
| dash in character class 9 
\p{Dash_Punctuation} 123 
date_default_timezone_set 235 
DBIx::DWIw 258 
debugcolor 363 
debugging 361-363 

with embedded code 331-332 
| regex objects 305-306 

run-time 362 
eee 123 
default regex 308 
|define-key 101 
|delegate 423-424 
\delimited text 196-198 
| standard formula 196, 273 
| delimiter 
| with shell 7 
| with substitution 319 
delimiters PHP 445, 448 
| description Java 365 
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DFA 
acronym spelled out 156 
backreferences 150, 182 
boring 157 
compared with NFA 224, 227 
(see also NFA) 
efficiency 179 
implementation ease 183 
introduced 145, 155 
lazy evaluation 181 
longest-leftmost match 177-179 
testing for 146-147 
dialytika 108 
\p{Dingbats} 124 
directed alternation (see alternation, 
| ordered) 
dish-stacking analogy 159 
dollar for Perl variable 37 
dollar anchor 129 
introduced 8 
dollar value 24-25, 51-52, 
167-170, 175, 194-195 
DOS 7 
dot 119 
vs. character class 119 
introduced 11-12 
Java 370 
mechanics of matching 149 
Tel 113 
dot 370 
dot modes Java 111, 370 
‘NET xvii, 405-438 
$+ 202 
after-match data 138 
benchmarking 237 
character-class subtraction 406 
code example 219 
flavor overview 92 
jit 410 
line anchors 130 
literal-text mode 136 
MISL 410 
object model 417 
\p{.-} 125 
regex approach 96-97 
regex flavor 407 
search and replace 414, 423-424 
URL example 204 
version covered 405 
word boundaries 134 
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double-quoted string example 
allowing escaped quotes 196 
egrep 24 
final regex 264 
makudonarudo 165, 169, 228-232, 264 
sobering example 222-228 
unrolled 262, 268 

double-word finder example 81 
description 1 
egrep 22 
Emacs 101 
Java 81 
Perl 35, 77-80 

-Dr 363 

dragon book 180 

DWIW (DBIx) 258 

dynamic regex 327-331 
sanitizing 337 

dynamic scope 295-299 
vs. lexical scope 299 


\E 290 
(see also literal-text mode) 
Java 368, 395, 403 

\e 79, 115-116 

fe 319-321 

‘earliest match wins 148-149 

| EBCDIC 29 

‘ECMAScript (NET) 406, 408, 412-413, 421, 

427 

ied 85 

lefficiency (see also optimization) 
and backtracking 179-180 
correctness 223-224 
Perl 347-363 
Perl-specific issues 347-363 
PHP 478-480 
regex objects 353-354 
unlimited lookbehind 134 

legrep 
after-match data 138 
backreference support 150 
case-insensitive match 15 
doubled-word solution 22 
example use 14 
flavor overview 92 
flavor summary 32 
history 86-87 
introduced 6-8 
metacharacter discussion 8-22 
regex implementation 183 
version covered 91 
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egrep (cont'd) 
word boundaries 134 
| electric engine analogy 143-147 
‘else (see conditional) 
Emacs 
'  after-match data 138 
control characters 117 
flavor overview 92 
re-search-forward 101 
search 100 
strings as regexes 101 
syntax class 128 
| version covered 91 
| word boundaries 134 
‘email of author xxiii 
‘email address example 70-73, 98 
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| .NET 99 
lembedded code 
| local 336 
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| sanitizing 337 
embedded string check optimization 247, 
| 257 
‘Embodiments of Mind 85 
‘Empty 433 
‘empty-clement tag 481 
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ASCH 29, 106-107, 115, 123 
| introduced 29 
| issues overview 105 
| Latin-1 29, 87, 106, 108, 123 
UCS-2 107 
UCS-4 107 
UTF-16 107 
|  UTF-8 107, 442, 447 
‘END block 358 
‘end method 377 
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lend of previous match (see \G) 
‘end of word (see word boundaries) 
endof string anchor optimization 246 
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| analogy 143-147 
| hybrid 182, 239, 243 
implementation ease 183 
introduced 27 
testing type 146-147 

with neverending match 227 
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English module 357 
English vs. regex 275 
enhanced line-anchor mode 112-113 
| introduced 69 
ERE 87-88 
lereg suite 439 
lerrata xxiii 
‘Escape 432 
|escape 
| introduced 22 
term defined 27 
essence 
atomic grouping 170-171 
, laziness, and backtrack- 
ing 168-169 
NFA (see backtracking) 
eval 319 
example 
| atomic grouping 198, 201, 213, 271, 
| 330, 340-341, 346 
commafying a number 64-65 
introduced 59 
without lookbehind 67 
CSV parsing 
Java 217, 401 
.NET 435 
Perl 213-219 
PHP 480 
unrolling 271 
VB.NET 219 
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dollar value 24-25, 51-52, 167-170, 175, 


194-195 
double-quoted string 
allowing escaped quotes 196 
egrep 24 


sobering example 222-228 
unrolled 262, 268 
double-word finder 81 
description 1 
egrep 22 
Emacs 101 
Java 81 
Perl 35, 77-80 
email address 70-73, 98 
Java 98 
.NET 99 
filename 190-192, 444 
| five modifiers 316 
floating-point number 194 
| form letter 50-51 
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| final regex 264 
makudonarudo 165, 169, 228-232, 
264 
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grlealy 9 
hostname 22, 73, 76, 98-99, 137-138, 
203, 260, 267-268, 304, 306, 
450-451 
egrep 25 
Java 209 
plucking from text 71-73, 206-208 
in URL 74-77 
validating 203-205 
VB.NET 204 
HREF 452 
HTML 443-444, 459, 461, 464, 481, 484 
conversion from text 67-77 
cooking 68, 414 
encoding 414 
<HR> 194 
link 201-203 ` 
optional 140 
paired tags 165 
parsing 132, 315, 321, 399 
tag 9, 18-19, 26, 200-201, 326, 357 
URL 74-77, 203, 206-208, 303, 
450-451 
URL-encoding 320 
HTTP response 467 
image tags 397 
IP 5, 187-189, 267-268, 311, 314, 
348-349 
Jeffs 61-64 
lookahead 61-64 
mail processing 53-59 
makudonarudo 165, 169, 228-232, 264 
pathname 190-192 
population 59 
possessive quantifiers 198, 201 
postal code 209-212 
regex overloading 341-345 
stock pricing 51-52, 167-168 
with alternation 175 
with atomic grouping 170 
with possessive quantifier 169 
temperature conversion 
Java 382 
.NET 425 
Perl 37, 283 
PHP 444 
text-to-HTML 67-77 
this|that 133, 139, 243, 245-247, 252, 
255, 260-261 
unrolling the loop 270-271, 477 
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URL 74-77, 201-204, 208, 260, 303-304, 
306, 320, 450-451 
egrep 25 
Java 209 
plucking 206-208 
username 73, 76, 98 
plucking from text 71-73 
in URL 74-77 
variable names 24 
XML 481-484 
ZIP code 209-212 
‘exception 
IllegalArgumentException 373, 380 
IllegalStateException 376-377 


IndexOutOfBoundsException 375-376, 


380 
IOException 81 
: PatternSyntaxException 371, 373 
‘Explicit (Option) 415 
‘ExplicitCapture (.NET) 408, 420, 427 
‘exponential match 222-228, 330, 340 
avoiding 264-266 
| discovery 226-228 
| explanation 226-228 
' non-determinism 264 
short-circuiting 250 
solving with atomic grouping 268 
solving with possessive quantifiers 268 
expose literal text 255 
| expression 
| context 294-295 
|  contorting 294-295 
| Extended Regular Expressions 87-88 


\£ 115-116 

_ introduced 44 

| Fahrenheit (see temperature conversion 

| example) 

‘failure 

| atomic grouping 171-172 
forcing 241, 333, 335, 340-341 

FF 109, 370 

file globs 4 

\file-check example 2, 36 

|filename 

| patterns (globs) 4 
prepending to line 79 

{filename example 190-192, 444 

Filo, David 397 

\p{Final_Punctuation} 123 


| 
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Ifind method 375 
region 384 
\FindAmpersand 358 
|Fite, Liz 33 
five modifiers example 316 
| flags method 394 
flavor 
| Perl 286-293 
| superficial chart 
! general 92 
Java 367 
.NET 407 
| PCRE 441 
Perl 285, 287 
PHP 441 
POSIX 88 
| term defined 27 
flex version covered 91 
floating regex cache (see regex objects) 
\floating ‘string’ 362 
| floating-point number example 194 
|forcing failure 241, 333, 335, 340-341 
| foreach vs. while vs. if 320 
‘form letter example 50-51 
| \p{Format } 123 
|freeflowing regex 277-281 
| Eriedt Alfred 176 
Friedl, brothers 33 
Friedl, Fumie v, xxiv 
| birthday 11-12 
‘Friedl, Jeffrey xxiii 
Friedl, Stephen xxiv, 458 
‘fully qualified name 295 
functions related to regexes in Perl 285 


| 
i\G 130-133, 212, 315-316, 362, 447 
| (see also pos) 
advanced example 132, 399 
.NET 408 
optimization 246 
¢g 61, 132, 307, 311-312, 315, 319 
| (see also \G) 
' introduced 51 
with regex object 354 
| garbage collection Java benchmarking 
| 236 
igas engine analogy 143-147 
‘general categories (see Unicode, 
properties) 
‘'gensub 182 
George, Kit xxiv 
GetGroupNames 427-428 
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GetGroupNumbere 427-428 
js 234 
(Gill, Stuart xxiv 
global match (see /g) 
global vs. private Perl variables 295 
globs filename 4 
'GNU awk 
|  after-match data 138 
| gensub 182 
| version covered 91 
| word boundaries 134 
|GNU egrep 
| after-match data 138 
|  backreference support 150 
doubled-word solution 22 
-i bug 21 
regex implementation 183 
word boundaries 134 
GNU Emacs (see Emacs) 
(GNU grep 
shortest-leftmost match 182 
version covered 91 
GNU sed 
after-match data 138 
version covered 91 
word boundaries 134 
Gosling, James 89 
laros 362 
| Greant, Zak xxiv 
greatest weakness Perl 286 
gr[ea]y cxample 9 
greedy (see also lazy) 
| alternation 174-175 
' and backtracking 162-177 
| deference to an overall match 153, 274 
| essence 159, 168-169 
| favors match 167-168 
| first come, first served 153 
global vs. local 182 
introduced 151 
vs. lazy 169, 256-257 
localizing 225-226 
quantifier 141 
swapping 447 
too greedy 152 
green dragon 180 - 
grep Perl 324 
grep 
as an acronym 85 
flavor overview 92 
history 86 
regex flavor 86 
version covered 91 
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grep (contd) 

-y option 86 
group method 377 
Group Object (.NET) 418 

Capture 437 

creating 429 

Index 430 

Length 430 

Success 430 

ToString 430 

using 430 

Value 430 
GroupCollection 429, 438 
groupCount method 377 
grouping and capturing 20-22 
grouping-only parentheses (see non-cap- 

turing parentheses) 

GroupNameFromNumber 427-428 
GroupNumberFromName 427-428 
Groups Match object method 429 
\p{Gujarati) 122 
Gutierrez, David xxiv 


|\p(an) 122 
|hand tweaking 
alternation 261 
caveats 253 
\p{Hangul_Jamo} 124 
hasAnchoringBounds method 388 
HASH (0x80f60ac) 257 
hasTransparentBounds method 387 
Hazel, Philip xxiv, 91, 440 
\p{Hebrew} 122, 124 
height attribute Java example 397 
Hz 109 
hex escape 117-118 
Perl 286 
highlighting with ANSI escape sequences 
79 


\p{Hiragana} 122 
history 
Ar 87 
AT&T Bell Labs 86 
awk 87 
Berkeley 86 
ed trivia 86 
egrep 86-87 
grep 86 
lex 87 
Perl 88-90, 308 
PHP 440 
of regexes 85-91 


www.TopSage.com 








history (cont'd) 
sed 87 
underscore in \w 89 
/x 90 
hitEnd method 389-392 
hostname example 22, 73, 76, 98-99, 
137-138, 203, 260, 267-268, 304, 306, 
450-451 
egrep 25 
Java 209 
plucking from text 71-73, 206-208 
in URL 74-77 
validating 203-205 
VB.NET 204 
$HostnameRegex 76, 137, 303, 351 
hot VM 236 
HREF example 452 
HTML 
cooking 68, 414 
matching tag 200-201 
HTML example 443-444, 459, 461, 464, 
481, 484 
conversion from text 67-77 
cooking 68, 414 
encoding 414 
<HR> 194 
link 201-203 
optional 140 
paired tags 165 
parsing 132, 315, 321, 399 
tag 9, 18-19, 26, 200-201, 326, 357 
URL 74-77, 203, 206-208, 303, 450-451 
URL-encoding 320 
htmlspecialchars 461 
HTTP newlines 115 
HTTP response example 467 
HTTP URL example 25, 74-77, 201-204, 
206-209, 260, 303-304, 306, 320, 
450-451 
\bttp://regex.info/ xxiii, 7, 345, 471 
($HttpUrl 303, 305, 345, 351 
‘hybrid regex engine 182, 239, 243 
hyphen in character class 9 
iHz 109 


(?i) (see: case-insensitive mode; mode 
modifier) 
/i 135 
(see also: case-insensitive mode; mode 
modifier) 
introduced 47 
with study 359 
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-i as-y 86 

identifier matching 24 

if (see conditional) 

if vs. while vs. foreach 320 

(? then | else) (see conditional) 

‘IgnoreCase (.NET) 96, 99, 408, 419, 42° 

‘IgnorePatternWhitespace (.NET) 99, 
408, 419, 427 

IllegalArgumentException 373, 380 

IllegalStateException 376-377 


‘image tags Java example 397 


image tags example 397 
implementation of engine 183 
‘implicit 362 
implicit anchor optimization 246 
‘Imports 413, 415, 434 
'\p{InArrows} 124 
i\p{InBasic_Latin} 124 
|\p{InBox_Drawing} 124 
i \p{InCurrency} 124 
|\p{InCyrillic} 124 
| Index 
| Group object method 430 
| Match object method 429 
eae err ar 375-376 
Np caer 124 
lindispensable TiVo 3 
\\p{InHangul_Jamo} 124 
'\p{InHebrew} 124 
\\p(Inherited) 122 
| initial class discrimination 245-248, 252, 
| 257-259, 332, 361 
i\p{Initial_Punctuation}) 123 
\\p{InKatakana) 124 
‘inline modes (see modifiers) 
'\p{InTamil) 124 
integrated handling 94 
| compile caching 243 
‘interpolation 288-289 
| caching 351 

introduced 77 

mimicking 321 

PHP 103 
INTERSECTION class set operations 126 
‘interval 141 
introduced 20 

{0,0}; 141 
\\p{InTibetan} 124 
‘introduced encoding 29 
‘introduction Perl 37-38 
iIOException 81 
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IP example 5, 187-189, 267-268, 311, 314, 
| 348-349 

lIraq 11 

(Is Vs. In 121, 124-125 

| Java 369 

| .NET 407 

| Perl 288 
'\p{IsCherokee)} 
'\p{IsCommon} 122 

\p{IsCyrillic} 122 

\p{IsGujarati} 122 

| \p{IsHan} 122 

‘\p{IsHebrew} 122 

\p{IsHiragana} 122 
isJavaldentifierStart 369 
\p{IsKatakana} 122 

\p{IsLatin}) 122 

IsMatch (Regex object method) 421 
ISO-8859-1 encoding 29, 87, 106, 108, 123 
lissues overview encoding 105 
\\p{IsThai} 122 

\\p{IsTibetan} 124 
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y 111 


Japanese 

| “正规 表现 位 简单 六 上 ! 5 

| text processing 29 

“ » 246 

Java 95-96, 365-403 

| (see also java.util.regex) 
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| after-match data 138 
| anchoring bounds 388 
benchmarking 235-236 
BLTN 236 
bugs 365, 368-369, 387, 392, 399, 403 
| code example 81, 209, 217, 235, 371, 
| 375, 378-379, 381-384, 389 
| CSV parsing example 401 
| description 365 
dot modes 111, 370 
| doubled-word example 81 
| JIT 236 
| line anchors 130, 370, 388 

line terminators 370 

match modes 368 
| match pointer 374, 383, 398, 400 
| matching comments 272-276 
| 
| 
| 
| 


object model 371-372 
\p{ } 125 
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Java (cont'd) 

regex flavor 366-370 

region 384-389 

search and replace 378-383 

x 110 

split 395-396 

strings 102 

transparent bounds 387 

Unicode 369 

URL example 209 

version covered 365 

version history 365, 368-369, 392, 401 

VM 236 

word boundaries 134 
java properties 369 
\p{javaJavalIdentifierStart} 369 
java.lang.Character 369 
java.util.regex (see Java) 
java.util.Scanner 390 
Jeffs example 61-64 


JfriedisRegexLibrary 434-435 
JIT 


Java 236 
.NET 410 
JRE 236 


\p{Katakana} 122, 124 
keeping in sync 210-211 
Keisler, H. J. 85 

Kleene, Stephen 85 

The Kleene Symposium 85 
\kname (see named capture) 
Korean text processing 29 
Kunen, K. 85 


& 124 
\l 290 
\p{L&} 122-123, 125, 442 
Java 369 
Perl 288 
\p{L} 121-122, 133, 368, 395 
language (see also: .NET; C#; Java; 
MySQL; Perl; procmail; Python; Ruby; 
Tcl; VB.NET) 
character class 10, 13 
identifiers 24 
\p{Latin} 122 
Latin-1 encoding 29, 87, 106, 108, 123 
lazy 166-167 
(see also greedy) 
essence 159, 168-169 
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lazy (cont'd) 
favors match 167-168 
vs. greedy 169, 256-257 
optimization 248, 257 
quantifier 141 
lazy evaluation 181, 355 
\L \E 290 
inhibiting 292 


‘le 290 


lefirst 290 
leftmost match 177-179 
Length 

Group object method 430 

Match object method 429 
length-cognizance optimization 245, 247 
\p{Letter} 122, 288 
\p{Letter_Number} 123 
$LevelN 330, 343 
lex 86 

$ 112 

dot 111 

history 87 

and trailing context 182 
lexer 132, 389, 399 

building 315 


‘lexical scope 299 


LF 109, 370 
LIFO backtracking 159 
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backtracking 239 
preg_split 466-467 
recursion 249-250 
line (see also string) 
anchor optimization 246 
vs. string 55 
line anchor 112-113 
mechanics of matching 150 
variety of implementations 87 
line anchors 
Java 130, 370, 388 
NET 130 
Perl 130 
PHP 130 


line feed 109, 370 


| LINE SEPARATOR 109, 123, 370 


‘line terminators 109-111, 129-130, 370 


with $ and ^ 112 
Java 370 


‘\p{Line_Separator} 123 
‘link 


matching 201 
(see also URL examples) 
Java 209 
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link, matching (cont'd) 
! VB.NET 204 
‘list context 294, 310-311 
` forcing 310 
‘literal string initial string discrimination 
| 245-248, 252, 257-259, 332, 361 
literal text 
exposing 255 
| introduced 5 
| mechanics of matching 149 
pre-check optimization 245-248, 252, 
257-259, 332, 361 
litera-text mode 113, 136, 290 
inhibiting 292 
.NET 136 
|\p{L1} 123, 406 
\p{Lm} 123, 406 
\p{Lo} 123, 406 
local 296, 341 
in embedded code 336 
| vs.my 297 
‘locale 127-128 
| overview 87 
NAw 120-121 
localtime 294, 319, 351 
‘lockup (see neverending match) 
‘locking in regex literal 352 
“A logical calculus of the ideas imminent in 
| nervous activity” 85 
‘longest match finding 334-335 
longestjieftmost match 148, 177-179 
‘lookahead 133 
| (see also lookaround) 
| auto 410 
| introduced 60 
| mimic atomic grouping 174 
| mimic optimizations 258-259 
| negated 
<B> </B> 167 
positive vs. negative 66 
eth example 61-64 
lookaround 
| backtracking 173-174 
conditional 140-141 
and DFAs 182 
| doesn’t consume text 60 
introduced 59 
| mimicking class set operations 126 
i mimicking word boundaries 134 
Perl 288 
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‘lookbehind 133 
_ (see also lookaround) 
| Java 368 
.NET 408 
| Perl 288 
PHP 134, 443 
| positive vs. negative 66 
unlimited 408 
Pi method 376 
loose matching (see case-insensitive 
| mode) 
‘Lord, Tom 183 
\p{Lowercase_Letter} 123 
Ls 109, 123, 370 
i\p{Lt} 123, 406 
|\p{Lu} 123, 406 
Runde, Ken xxiv, 29 
| 
|\p{M} 120, 122 
m/ / introduced 38 
(?m) (see: enhanced line-anchor mode; 
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scripts 122, 288, 442 
a xvii 
| awk 100 
| Java 378-383 
| NET 414, 423-424 
| Perl 318-321 
PHP 458-465 
Tcl 100 
(see also substitution) 
sed 
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java.util. regex) 
superlinear (see neverending match) 
super-linear short-circuiting 250 
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|There’s more than one way to do it 349 
‘this{|that example 133, 139, 243, 
245-247, 252, 255, 260-261 
Thompson, Ken 85-86, 111 
thread scheduling Java benchmarking 236 
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封面 介绍 


《精通 正则 表达 式 (第 3 版 )》 的 封面 动物 是 猫 头 记 (owls), 这些 捕 猎 者 包括 两 科 (family), 
约 180 种 ,分布 于 世界 各 地 ， 当 然 南 极 洲 除外 。 多 数 种 类 都 在 夜间 出 动 ， 捕 食 活 物 ， 小 到 
昆虫 ， 大 到 野 免 。 


猫 头 记 的 眼睛 很 大 ， 直 视 前 方 ， 因 为 不 易 转 动 ， 猫 头 鹿 必须 转动 头 部 才能 观察 四 周 。 它 们 
的 头 部 最 多 可 以 旋转 270 度 ， 有 些 种 类 的 猫头鹰 其 至 能 转 到 头顶 向 下 。 作 为 捕猎 者 ， 猫 头 
认 在 进化 过 程 中 锻炼 出 极 强 的 辨识 声音 频率 和 方向 的 能 力 。 许 多 种 类 的 猫 头 谭 的 耳 打 是 不 
对 称 的， 这 样 在 微 光 或 暗夜 时 更 容易 定位 猎物 。 一 旦 确定 了 方位 ， 它 们 可 以 依靠 柔软 的 羽 
毛 ， 出 其 不 意 ， 悄 无 声息 地 接近 猎物 。 


长 期 以 来 人 们 将 猫 头 唐 视 为 孵 恶 而 冷血 的 生物 ， 其 实 它 们 完全 不 是 如 此 。 或 许 是 因为 大 眼 
睛 让 人 觉得 狐 点 ， 民 间 传 说 中 一 直 有 它们 的 故事 。 


封面 的 图 像 来 自 Dover Pictorial Archive 的 19 世纪 雕版 画 。 
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精通 正则 表达 式 
本 书 讲解 正则 表达 式 ， 这 种 工具 能 够 提高 工作 效率 、 让 生活 变 得 更 轻松 。 精 心 调 校 后 的 正则 表 
ge 达 式 只 需要 十 多 秒 就 能 完成 以 前 数 小 时 才能 完成 的 枯燥 任务 。 如 今 , 正则 表达 式 已 经 成 为 众多 
语言 及 工具 一 一 Perl PHP, Java, Python, Ruby, MySQL、VB.NET 和 C#( 以 及 .NET Framework 
中 的 任何 语言 ) 一 一 中 的 标准 特性 ， 依 靠 它 ， 你 能 以 之 前 完全 不 敢 设 想 的 方式 进行 复杂 而 精巧 的 文本 处 理 。 


《精通 正则 表达 式 (第 3 版 )》 包 含 了 对 PHP 及 其 正则 表达 式 的 讲解 。 这 一 版 的 更 新 也 反映 了 其 他 语言 的 发 展 ， 
深入 讲解 了 Sun 的 java.util.regex， 并 特别 提 到 了 Java 1.4.2 和 Java 1.5/1.6 之 间 的 众多 差异 。 


本 书 的 内 容 : 
。 “各 种 语言 和 工具 的 功能 比较 

。 ”正则 引擎 的 工作 原理 

。 ”优化 (能 节省 大 量 的 时 间 ) 

。 ”准确 匹配 期 望 的 文本 

。 ”针对 具体 语言 的 章节 

《精通 正则 表达 式 (第 3 版 )》， 以 明晰 轻松 的 笔调 向 程序 员 深入 浅 出 地 讲解 复杂 的 知识 ， 并 给 出 了 现实 世界 
中 复杂 问题 的 解决 办 法 ， 读 者 能 够 立刻 运用 书 中 丰富 的 知识 ， 巧 妙 而 高 效 地 解决 各 种 问题 。 


“如 果 你 的 工作 需要 用 到 正则 表达 式 (即便 你 已 经 有 本 很 不 错 的 关于 开发 语言 的 书 ), 我 还 是 要 向 你 强烈 
推荐 本 书 。 


一 一 Dr.Chris Brown, Linux Format 


“ 毫 不 夸张 地 说 ,《 精 通 正则 表达 式 (第 3 版 )》 是 学 习 该 工具 的 不 二 选择 , 也 是 每 个 程序 员 必 备 的 杰作 。” 


一 一 Jason Menard, Java Ranch 


“所 有 关于 正则 表达 式 的 书 中 ， 找 不 到 比 这 更 好 的 了 。” 
一 一 Zak Greant, Planet PHP 
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